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XVi 


目录 


XVii 


很 多 语句 提出 了 不 少 修改 建议 。 林 中 鹏 进行 了 校对 ， 他 提出 了 很 多 独到 的 修改 
建议 。 
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第 五 章 〈 机 器 学 习 基 础 ): 郭 洗 和 黄平 春 阅读 本 章 ， 并 修改 语句 。 李 东 和 林 中 腑 
进行 了 校对 。 本 章 篇 幅 较 长 ， 能 够 有 现在 的 翻译 质量 离 不 开 这 四 位 的 贡献 。 
第 六 章 〈 深 度 前 外 网 络 ): 周 卫 林 、 林 中 鹏 和 张 远 航 阅 读本 音 ， 并 提出 修改 意 
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题 ， 令 翻译 更 加 准确 。 

第 八 章 〈 深度 模型 中 的 优化 ): 房 晓 宇和 吴 翔 阅读 本 音 。 黄 平 春 进行 了 校对 ,他 
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建议 ， 瑚 瑞 清 根据 他 的 翻译 版 本 ， 给 我 们 的 版 本 提出 了 很 多 建议 。 虽 然 仍 存在 
一 些 分 歧 ， 但 我 们 两 个 版 本 的 整合 ， 让 翻译 质量 提升 很 多 。 

第 十 二 章 〈 应 用 ): 潘 雨 桶 进行 了 校对 ,在 他 的 校对 之 前 ,本章 阅 读 起 来 比较 困 
难 。 他 提供 的 修改 建议 ， 不 仅 提高 了 行文 流畅 度 ， 还 提升 了 译文 的 准确 度 。 
第 十 三 章 (线性 因子 模型 ): 贺 天 行 阅读 本 章 ， 修 改 语句 。 杨 志 伟 校 对 本 章 ， 润 
色 大 量 语句 。 

第 十 四 章 〈 自 编码 器 ): 李 雨 慧 和 黄平 春 进行 了 校对 。 李 两 意 提 升 了 语言 的 流畅 
度 ， 黄 平 春 纠正 了 不 少 错误 ， 提 高 了 准确 性 。 
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e 第 十 五 章 ( 表示 学 习 ): cnscottzheng 阅读 本 章 ， 并 修改 语句 。 


。 第 十 七 章 〈 和 蒙特 卡 罗 方 法 ): 张 远航 提供 了 非常 细致 的 校对 ， 后 续 还 校对 了 一 
饥 ， 使 译文 质量 大 大 提升 。 


。 第 十 八 音 〈 直面 配 分 国 数 ) 吴 家 楠 进行 了 校对 ， 提 升 了 译文 准确 性 和 可 读 性 。 


。 第 十 九 章 〈 近 似 推 新 ): 呐 浩 军 、 张 远航 和 张 源源 进行 了 校对 。 这 音 虽 篇 幅 不 
大 ， 但 内 容 有 深度 ， 译 文 在 三 位 的 帮助 下 提高 了 准确 度 。 
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远 在 古 和 希腊 时 期 ， 发 明 家 就 梦想 着 创造 能 自主 思考 的 机 需 。 神 话 人 物 皮 格 马 利 
翁 (Pygmalion) 、 代 达 罗 斯 (Daedalus) 和 赫 淮 斯 托 斯 (Hephaestus) 可 以 被 看 作 传 说 
中 的 发 明 家 ， 而 加 拉 蒂 亚 (Galatea) 、 塔 洛斯 (Talos) 和 潘多拉 (Pandora) 则 可 以 被 
视 为 人 造 生 命 (Ovid and Martin, 2004; Sparkes, 1996; Tandy, 1997)。 

当 人 类 第 一 次 构思 可 编程 计算 机 时 ， 就 已 经 在 思考 计算 机 能 否 变 得 智能 (尽管 
这 距 造 出 第 一 台 计 算 机 还 有 一 百 多 年 ) (Lovelace, 1842)。 如 今 ， 人 工 智能 〈 artificial 
intelligence, AI ) 已 经 成 为 一 个 具有 众多 实际 应 用 和 活跃 研究 课题 的 领域 ， 并 且 正 在 
鞍 勃 发 展 。 我 们 期 望 通过 智能 软件 自动 地 处 理 常 规 劳 动 、 理 解 语 音 或 图 像 、 帮 助 医 
学 诊断 和 文 持 基础 科学 研究 。 

在 人 工 智能 的 早期 ， 那 些 对 人 类 智力 来 说 非常 困难 、 但 对 计算 机 来 说 相对 简单 
的 问题 得 到 迅速 解决 ， 比 如 ， 那 些 可 以 通过 一 系列 形式 化 的 数学 规则 来 描述 的 问题 。 
人 工 智能 的 真正 挑战 在 于 解决 那些 对 人 来 说 很 容易 执行 、 但 很 难 形 式 化 描述 的 任务 ， 
如 识别 人 们 所 说 的 话 或 图 像 中 的 脸 。 对 于 这 些 问题 ， 我 们 人 类 往往 可 以 凭借 直觉 轻 
易 地 解决 。 

针对 这 些 比较 直观 的 问题 ， 本 书 讨论 一 种 解决 方案 。 该 方案 可 以 让 计算 机 从 经 
验 中 学 习 ， 并 根据 层次 化 的 概念 体系 来 理解 世界 ， 而 每 个 概念 则 通过 与 某 些 相对 人 简 
单 的 概念 之 间 的 关系 来 定义 。 让 计算 机 从 经 验 获 取 知 识 ， 可 以 避免 由 人 类 来 给 计算 
机 形式 化 地 指定 它 需 要 的 所 有 知识 。 层 次 化 的 概念 让 计算 机 构建 较 简 单 的 概念 来 学 
习 复 杂 概念 。 如 果 绘 制 出 这 些 概 念 如 何 建 立 在 彼此 之 上 的 图 ， 我 们 将 得 到 一 张 “ 深 ?” 
(层次 很 多 ) 的 图 。 基 于 这 个 原因 ,我 们 称 这 种 方法 为 AI 深度 学 习 〈deep learning )。 

AI 许多 早期 的 成 功 发 生 在 相对 朴素 且 形 式 化 的 环境 中 ， 而 且 不 要 求 计 算 机 具 
备 很 多 关于 世界 的 知识 。 例 如 ，IBM 的 深蓝 〈Deep Blue ) 国际 象棋 系统 在 1997 年 
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击败 了 世界 冠军 Garry Kasparov(Hsu, 2002)。 显 然 国 际 象棋 是 一 个 非常 简单 的 领域 ， 
因为 它 仅 含有 64 个 位 置 并 只 能 以 严格 限制 的 方式 移动 32 个 模子。 设计 一 种 成 功 的 
国际 象棋 策略 是 巨大 的 成 就 ， 但 向 计算 机 描述 棋子 及 其 允许 的 走 法 并 不 是 挑战 的 困 
难 所 在 。 国 际 象棋 完全 可 以 由 一 个 非常 简短 的 、 完 全 形式 化 的 规则 列表 来 描述 ， 并 
可 以 容易 地 由 程序 员 事 先 准 备 好 。 

讽刺 的 是 ， 抽 象 和 形式 化 的 任务 对 人 类 而 言 是 最 困难 的 脑力 任务 之 一 ， 但 对 计 
算 机 而 言 却 属于 最 容易 的 。 计 算 机 早 就 能 够 打败 人 类 最 好 的 象棋 选手 ， 但 直到 最 近 
计算 机 才 在 识别 对 象 或 语音 任务 中 达到 人 类 平均 水 平 。 一 个 人 的 日 常生 活 需 要 关于 
世界 的 巨 量 知识 。 很 多 这 方面 的 知识 是 主观 的 、 直 观 的 ， 因 此 很 难 通过 形式 化 的 方 
式 表 达 清 楚 。 计 算 机 需要 获取 同样 的 知识 才能 表现 出 智能 。 人 工 智能 的 一 个 关键 挑 
战 就 是 如 何 将 这 些 非 形式 化 的 知识 传达 给 计算 机 。 

一 些 人 工 智能 项 目 力求 将 关于 世界 的 知识 用 形式 化 的 语言 进行 硬 编码 (hard- 
code)。 计 算 机 可 以 使 用 逻辑 推理 规则 来 自动 地 理解 这 些 形式 化 语言 中 的 声明 。 这 
就 是 众所周知 的 人 工 智能 的 知识 库 ( knowledge base ) 方法 。 然 而 ， 这 些 项 目 最 终 
都 没有 取得 重大 的 成 功 。 其 中 最 著名 的 项 目 是 Cyc (Lenat and Guha, 1989)。Cyc 
包括 一 个 推断 引擎 和 一 个 使 用 CycL 语言 摘 述 的 声明 数据 库 。 这 些 声 明 是 由 人 类 
监督 者 输入 的 。 这 是 一 个 繁 拙 的 过 程 。 人 们 设法 设计 出 足够 复杂 的 形式 化 规则 来 
精确 地 描述 世界 。 例 如 ，Cyc 不 能 理解 一 个 关于 名 为 Fred 的 人 在 早上 剃 须 的 故 
事 (Linde, 1992)。 它 的 推理 引擎 检测 到 故事 中 的 不 一 致 性 : 它 知道 人 体 的 构成 不 
包含 电气 零件 ， 但 由 于 Fred 正 拿 着 一 个 电动 剃 须 刀 ， 它 认为 实体 “正在 剃 须 的 
Ered" (FredWhbileShaving”) 含有 电气 部 件 。 因 此 它 产 生 了 这 样 的 搬 问 一 一 Fred 在 
刮 胡 子 的 时 候 是 否 仍然 是 一 个 人 。 

依靠 硬 编码 的 知识 体系 面 对 的 困难 表明 ，AI 系统 需要 具备 自己 获取 知识 的 能 
即 从 原始 数据 中 提取 模式 的 能 力 。 这 种 能 力 被 称 为 机 器 学 习 (machine learning )。 
引入 机 器 学 习 使 计算 机 能 够 解决 涉及 现实 世界 知识 的 问题 ， 并 能 作出 看 似 主 观 的 决 
策 。 比 如 , 一 个 被 称 为 逻辑 回归 (logistic regression ) 的 简单 机 吉 学 习 算 法 可 以 决定 
是 否 建 议 剖 腹 产 (Mor-Yosef et ol.,， 1990)。 而 同样 是 简单 机 器 学 习 算 法 的 朴素 贝 叶 
斯 (naive Bayes ) 则 可 以 区 分 垃圾 电子 邮件 和 合法 电子 邮件 。 

这 些 简 单 的 机 需 学 习 算 法 的 性 能 在 很 大 程度 上 依赖 于 给 定数 据 的 表示 (repre- 
sentation )。 例 如 ， 当 导 辑 回归 被 用 于 判断 产妇 是 否 适 合 剖腹 产 时 ，AI 系统 不 会 直接 
检查 患者 。 相 反 ， 医 生 需 要 告诉 系统 几 条 相关 的 信息 ， 诸 如 是 否 存 在 子宫 疤痕 。 表 
示 患 者 的 每 条 信息 被 称 为 一 个 特征 。 逻 辑 回归 学 习 病 人 的 这 些 特征 如 何 与 各 种 结果 

















































































































相关 联 。 然 而 ， 它 丝毫 不 能 影响 该 特征 定义 的 方式 。 如 果 将 病人 的 MRI 扫 描 作为 逻 
辑 回归 的 输入 ， 而 不 是 医生 正式 的 报告 ， 它 将 无 法 作出 有 用 的 预测 。MRI 扫描 的 单 
一 像素 与 分 娩 过 程 中 并 发 证 之 间 的 相关 性 微乎其微 。 

在 整个 计算 机 科学 乃至 日 常生 活 中 ， 对 表示 的 依赖 都 是 一 个 普遍 现象 。 在 计算 
机 科学 中 ， 如 果 数 据 集合 被 精巧 地 结构 化 并 被 智能 地 索引 ， 那 么 诸如 搜索 之 类 的 操 
作 的 处 理 速度 就 可 以 成 指数 级 地 加 快 。 人 们 可 以 很 容易 地 在 阿拉 伯 数 字 的 表示 下 进 
行 算 术 运 算 ， 但 在 罗马 数字 的 表示 下 运算 会 比较 耗 时 。 因 此 ， 毫 不 奇怪 ， 表 示 的 选择 
会 对 机 器 学 习 算法 的 性 能 产生 巨大 的 影响 。 图 1.1 展示 了 一 个 简单 的 可 视 化 例子 。 
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图 1.1: 不 同 表示 的 例子 : 假设 我 们 想 在 散 点 图 中 画 一 条 线 来 分 隔 两 类 数据 。 在 左 图 ， 我 们 使 用 笛 
卡尔 坐标 表示 数据 ， 这 个 任务 是 不 可 能 的 。 右 图 中 ,我们 用 极 坐 标 表 示 数 据 ， 可 以 用 垂直 线 简单 地 
解决 这 个 任务 。( 与 David Warde-Farley 合作 画 出 此 图 。) 



























































许多 人 工 智 能 任务 都 可 以 通过 以 下 方式 解决 : 先 提取 一 个 合适 的 特征 集 ， 然 后 
将 这 些 特征 提供 给 简单 的 机 器 学 习 算 法 。 例 如 ， 对 于 通过 声音 鉴别 说 话 者 的 任务 来 
说 ， 一 个 有 用 的 特征 是 对 其 声 道 大 小 的 佑 计 。 这 个 特征 为 判断 说 话 者 是 男性 、 女 性 
还 是 儿童 提供 了 有 力 线索 。 

然而 ， 对 于 许多 任务 来 说 ,我们 很 难 知道 应 该 提取 哪些 特征 。 例 如 ， 假 设 我 们 想 
编写 一 个 程序 来 检测 照片 中 的 车 。 我 们 知道 ， 汽 车 有 轮子 ， 所 以 我 们 可 能 会 想 用 车 
轮 的 存在 与 否 作为 特征 。 不 幸 的 是 ， 我 们 难以 准确 地 根据 像素 值 来 描述 车 轮 看 上 去 
像 什么 。 虽 然 车 轮 具 有 简单 的 几何 形状 ， 但 它 的 图 像 可 能 会 因 场 景 而 蜡 ， 如 落 在 车 
轮 上 的 阴影 、 太 阳 照 亮 的 车 轮 的 金属 零件 、 汽 车 的 挡 泥 板 或 者 焉 挡 的 车 轮 一 部 分 的 
前 景物 体 等 等 。 
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解决 这 个 问题 的 途径 之 一 是 使 用 机 需 学 习 来 发 据 表 示 本 身 ， 而 不 仅仅 把 表示 有 映 
射 到 输出 。 这 种 方法 我 们 称 之 为 表示 学 习 (representation learning )。 学 习 到 的 表 
示 往 往 比 手 动 设计 的 表示 表现 得 更 好 。 并 且 它 们 只 需 最 少 的 人 工 干 预 ， 就 能 让 AI 系 
统 迅速 适 应 新 的 任务 。 表 示 学 习 算法 只 需 几 分 钟 就 可 以 为 简单 的 任务 发 现 一 个 很 好 
的 特征 集 ， 对 于 复杂 任务 则 需要 几 小 时 到 几 个 月 。 手 动 为 一 个 复杂 的 任务 设计 特征 
需要 耗费 大 量 的 人 工时 间 和 精力 ; 甚至 需要 花费 整个 社 群 研究 人 员 几 十 年 的 时 间 。 

表示 学 习 算 法 的 典型 例子 是 自 编 码 器 (autoencoder )。 自 编码 需 由 一 个 编码 器 
(encoder ) 函数 和 一 个 解码 器 (decoder ) 冰 数 组 合 而 成 。 编 码 器 函数 将 输入 数据 转 
换 为 一 种 不 同 的 表示 ， 而 解码 句 冰 数 则 将 这 个 新 的 表示 转换 到 原来 的 形式 。 我 们 期 
望 当 输入 数据 经 过 编码 器 和 解码 器 之 后 尽 可 能 多 地 保留 信息 ， 同 时 希望 新 的 表示 有 
各 种 好 的 特性 ， 这 也 是 自 编 码 需 的 训练 目标 。 为 了 实现 不 同 的 特性 ， 我 们 可 以 设计 
不 同形 式 的 自 编 码 吉 。 

当 设 计 特 征 或 设计 用 于 学 习 特 征 的 算法 时 ， 我 们 的 目标 通常 是 分 离 出 能 解释 观 
察 数 据 的 变 差 因素 〈factors of variation )。 在 此 背景 下 ,“ 因 素 ” 这 个 词 仅 指 代 影响 
的 不 同 来 源 ; 因素 通常 不 是 乘 性 组 合 。 这 些 因素 通常 是 不 能 被 直接 观察 到 的 量 。 相 
反 ， 它 们 可 能 是 现实 世界 中 观察 不 到 的 物体 或 者 不 可 观测 的 力 ， 但 会 影响 可 观测 的 
量 。 为 了 对 观察 到 的 数据 提供 有 用 的 简化 解释 或 推 亲 其 原因 ， 它 们 还 可 能 以 概念 的 
形式 存在 于 人 类 的 思维 中 。 它 们 可 以 被 看 作 数据 的 概念 或 者 抽象 ， 帮 助 我 们 了 解 这 
些 数据 的 丰富 多 样 性 。 当 分 析 语 音 记 录 时 ， 变 差 因素 包括 说 话 考 的 年 龄 、 性 别 、 他 们 
的 口音 和 他 们 正在 说 的 词语 。 当 分 析 汽 车 的 图 像 时 ， 变 差 因 素 包 括 汽 车 的 位 置 、 它 
的 颜色 、 太 阳 的 角度 和 亮度 。 

在 许多 现实 的 人 工 智能 应 用 中 ， 困 难 主要 源 于 多 个 变 差 因素 同时 影响 着 我 们 能 
够 观察 到 的 每 一 个 数据 。 比 如 ， 在 一 张 包含 红色 汽车 的 图 片 中 ， 其 单个 像素 在 夜间 
可 能 会 非常 接近 黑色 。 汽 车 轮廓 的 形状 取决 于 视角 。 大 多 数 应 用 需要 我 们 理 清 变 差 
因素 并 忽略 我 们 不 关心 的 因素 。 

显然 , 从 原始 数据 中 提取 如 此 高 层次 、 抽 象 的 特征 是 非常 困难 的 。 许 多 诸如 说 话 
口音 这 样 的 变 差 因素 ， 只 能 通过 对 数据 进行 复杂 的 、 接 近 人 类 水 平 的 理解 来 辨识 。 这 
几乎 与 获得 原 问 题 的 表示 一 样 困难 ， 因 此 ， 乍 一 看 ， 表 示 学 习 似乎 并 不 能 帮助 我 们 。 

深度 学 习 〈 deep learning ) 通过 其 他 较 简 单 的 表示 来 表达 复杂 表示 ， 解 决 了 表 
示 学 习 中 的 核心 问题 。 


深度 学 习 让 计算 机 通过 较 简单 概念 构建 复杂 的 概念 。 图 1.2 展示 了 深度 学 习 系 统 
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1.2: 深度 学 习 模 型 的 示意 图 。 计 算 机 难以 理解 原始 感 观 输入 数据 的 含义 ， 如 表示 为 像素 值 集合 
的 图 像 。 将 一 组 像素 映射 到 对 象 标识 的 函数 非常 复杂 。 如 果 直 接 处 理 ， 学 习 或 评估 此 映射 似乎 是 
不 可 能 的 。 座 度 学 习 将 所 需 的 复杂 映射 分 解 为 一 系列 悉 套 的 简单 映射 〈 每 个 由 模型 的 不 同 层 描 述 ) 
来 解决 这 一 难题 。 输 入 展示 在 可 见 层 ( visible layer )， 这 样 命名 的 原因 是 因为 它 包 含 我 们 能 观察 
到 的 变量 。 然 后 是 一 系列 从 图 像 中 提取 越 来 越 多 抽象 特征 的 隐藏 层 (hidden layer )。 因 为 它们 的 
值 不 在 数据 中 给 出 ， 所 以 将 这 些 层 称 为 “隐藏 汶 模型 必须 确定 哪些 概念 有 利于 解释 观察 数据 中 的 
关系 。 这 里 的 图 像 是 每 个 隐藏 单元 表示 的 特征 的 可 视 化 。 给 定 像素 ,第 一 层 可 以 轻易 地 通过 比较 相 
邻 像素 的 亮度 来 识别 边缘 。 有 了 第 一 隐藏 层 描述 的 边缘 ， 第 二 隐藏 层 可 以 容易 地 搜索 可 识别 为 角 
和 扩展 轮廓 的 边 集合 。 给 定 第 二 隐藏 层 中 关于 角 和 轮廓 的 图 像 描述 ， 第 三 隐藏 层 可 以 找到 轮廓 和 
角 的 特定 集合 来 检测 特定 对 象 的 整个 部 分 。 最 后 ， 根 据 图 像 描述 中 包含 的 对 象 部 分 ， 可 以 识别 图 
像 中 存在 的 对 象 。 经 Zeiler and Fergus (2014) 许可 转载 此 图 。 
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如 何 通 过 组 合 较 简单 的 概念 〈 例 如 转角 和 轮廓 ， 它 们 转 而 由 边线 定义 ) 来 表示 图 像 
中 人 的 概念 。 深 度 学 习 模 型 的 典型 例子 是 前 馈 深 度 网 络 或 多 层 感 知 机 (mnultilayer 
perceptron, MLP )。 多 层 感 知 机 仅仅 是 一 个 将 一 组 输入 值 映射 到 输出 值 的 数学 本 数 。 
该 函数 由 许多 较 简 单 的 函数 复合 而 成 。 我 们 可 以 认为 不 同 数学 函数 的 每 一 次 应 用 都 
为 输入 提供 了 新 的 表示 。 
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学 习 数 据 的 正确 表示 的 想法 是 解释 深度 学 习 的 一 个 视角 。 另 一 个 视角 是 深度 促 
使 计算 机 学 习 一 个 多 步骤 的 计算 机 程序 。 每 一 层 表 示 都 可 以 被 认为 是 并 行 执行 另 一 
组 指令 之 后 计算 机 的 存储 器 状态 。 更 深 的 网 络 可 以 按 顺 序 执行 更 多 的 指令 。 顺 序 指 
令 提供 了 极 大 的 能 力 ， 因 为 后 面 的 指令 可 以 参考 早期 指令 的 结果 。 从 这 个 角度 上 看 ， 
在 某 层 激活 函数 里 ， 并 非 所 有 信息 都 列 涵 着 解释 输入 的 变 差 因素 。 表 示 还 存储 着 状 
态 信息 ， 用 于 帮助 程序 理解 输入 。 这 里 的 状态 信息 类 似 于 传统 计算 机 程序 中 的 计数 
器 或 指针 。 它 与 具体 的 输入 内 容 无 关 ， 但 有 助 于 模型 组 织 其 处 理 过 程 。 

目前 主要 有 两 种 度量 模型 深度 的 方式 。 第 一 种 方式 是 基于 评 佑 架构 所 需 执行 的 
顺序 指令 的 数目 。 假 设 我 们 将 模型 表示 为 给 定 输入 后 ， 计 算 对 应 输出 的 流程 图 ， 则 
可 以 将 这 张 流程 图 中 的 最 长 路 径 视 为 模型 的 深度 。 正 如 两 个 使 用 不 同 语言 编写 的 等 
价 程序 将 具有 不 同 的 长 度 ; 相同 的 函数 可 以 被 绘制 为 具有 不 同 次 度 的 流程 图 ， 其 深 
度 取决 于 我 们 可 以 用 来 作为 一 个 步 又 的 函数 。 图 1.3 说 明了 语言 的 选择 如 何 给 相同 的 
架构 两 个 不 同 的 衡量 。 
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图 1.3: 将 输入 映射 到 输出 的 计算 图 表 的 示意 图 ， 其 中 每 个 节点 执行 一 个 操作 。 深 度 是 从 输入 到 输 
出 的 最 长 路 径 的 长 度 , 但 这 取决 于 可 能 的 计算 步 又 的 定义 。 这 些 图 中 所 示 的 计算 是 逻辑 回归 模型 的 
输出 ，c(w7z)， 其 中 c 是 logistic sigmoid 函数 。 如 果 我 们 使 用 加 法 、 乘 法 和 logistic sigmoid 作 
为 我 们 计算 机 语言 的 元 素 ， 那 么 这 个 模型 深度 为 三 。 如 果 我 们 将 逻辑 回归 视 为 元 素 本 身 ， 那 么 这 
个 模型 深度 为 一 。 


























另 一 种 是 在 深度 概率 模型 中 使 用 的 方法 ， 它 不 是 将 计算 图 的 深度 视 为 模型 深度 ， 
而 是 将 描述 概念 彼此 如 何 关 联 的 图 的 深度 视 为 模型 深度 。 在 这 种 情况 下 ， 计 算 每 个 
概念 表示 的 计算 流程 图 的 深度 可 能 比 概念 本 身 的 图 更 深 。 这 是 因为 系统 对 较 简单 概 
念 的 理解 在 给 出 更 复杂 概念 的 信息 后 可 以 进一步 精细 化 。 例 如 ,一 个 AI 系统 观察 其 








中 一 只 眼睛 在 阴影 中 的 脸 部 图 像 时 ， 它 最 初 可 能 只 看 到 一 只 眼睛 。 但 当 检测 到 脸 部 
的 存在 后 ， 系 统 可 以 推 新 第 二 只 眼睛 也 可 能 是 存在 的 。 在 这 种 情况 下 ， 概 念 的 图 仅 
包括 两 层 〈 关 于 眼睛 的 层 和 关于 脸 的 层 )， 但 如 果 我 们 细 化 每 个 概念 的 估计 将 需要 祝 
外 的 ?次 计算 ， 即 计算 的 图 将 包含 2m 层 。 

由 于 并 不 总 是 清楚 计算 图 的 深度 或 概率 模型 图 的 深度 哪 一 个 是 最 有 意义 的 ， 并 
且 由 于 不 同 的 人 选择 不 同 的 最 小 元 素 集 来 构建 相应 的 图 ， 因 此 就 像 计算 机 程序 的 长 
度 不 存在 单一 的 正确 值 一 样 ， 架 构 的 深度 也 不 存在 单一 的 正确 值 。 刀 外， 也 不 存在 
模型 多 么 深 才 能 被 修饰 为 “ 深 ” 的 共识 。 但 相 比 传统 机 器 学 习 ， 深 度 学 习 研 究 的 模型 
涉及 更 多 学 到 功能 或 学 到 概念 的 组 合 ， 这 点 毋庸 置疑 。 

总 之 ， 这 本 书 的 主题 一 一 深度 学 习 是 通 向 人 工 智 能 的 途径 之 一 。 具 体 来 说 ， 它 
是 机 天 学 习 的 一 种 ， 一 种 能 够 使 计算 机 系统 从 经 验 和 数据 中 得 到 提高 的 技术 。 我 们 
坚信 机 器 学 习 可 以 构建 出 在 复杂 实际 环境 下 运行 的 AI 系统 , 并且 是 唯一 切实 可 行 的 
方法 。 深 度 学 习 是 一 种 特定 类 型 的 机 需 学 习 ， 有 具有 强大 的 能 力 和 灵活 性 ， 它 将 大 干 
世界 表示 为 衣 套 的 层次 概念 体系 〈 由 较 简单 概念 间 的 联系 定义 复杂 概念 、 从 一 般 抽 
象 概括 到 高 级 抽象 表示 )。 图 1.4 说 明了 这 些 不 同 的 AI 学 科 之 间 的 关系 。 图 1.5 展示 
了 每 个 学 科 如 何 工 作 的 高 层次 原理 。 

















图 1.4: 维 恩 图 
AI 方法 。 维 恩 
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展示 了 深度 学 习 是 一 种 表示 学 习 ， 也 是 一 种 机 器 学 习 ， 可 以 用 于 





图 的 每 个 部 分 包括 一 个 AI 技术 的 示例 。 
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图 1.5: 流程 图 展示 了 AI 系统 的 不 同 部 分 如 何在 不 同 的 AI 学 科 
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1.1 ”本 书面 向 的 读者 


这 本 书 对 各 类 读者 都 有 一 定 用 处 ， 但 我 们 主要 是 为 两 类 受众 对 象 而 写 的 。 其 中 
一 类 受众 对 象 是 学 习 机 顺 学 习 的 大 学 生 〈 本 科 或 研究 生 )， 包 括 那 些 已 经 开始 职 ， 
生涯 的 深度 学 习 和 人 工 智 能 研究 者 。 另 一 类 受众 对 象 是 没有 机 融 学 习 或 统计 背景 但 
希望 能 快速 地 掌握 这 方面 知识 并 在 他 们 的 产品 或 平台 中 使 用 深度 学 习 的 软件 工程 师 。 
深度 学 习 在 许多 软件 领域 都 已 被 证 明 是 有 用 的 ， 包 括 计 算 机 视觉 、 语 音 和 音频 处 理 、 
自然 语言 处 理 、 机 器 人 技术 、 生 物 信 息 学 和 化 学 、 电 子 游 戏 、 搜 索引 擎 、 网 络 广告 和 
金融 。 

为 了 最 好 地 服务 各 类 读者 ， 我 们 将 本 书 组 织 为 三 个 部 分 。 第 一 部 分 介绍 基本 的 
数学 工具 和 机 器 学 习 的 概念 。 第 二 部 分 介绍 最 成 熟 的 这 度 学 习 算 法 ， 这 些 技术 基本 
上 已 经 得 到 解决 。 第 三 部 分 讨论 某 些 具有 展望 性 的 想法 ， 它 们 被 广泛 地 认为 是 深度 
学 习 未 来 的 研究 重点 。 

读者 可 以 随意 跳 过 不 感 兴趣 或 与 自己 背景 不 相关 的 部 分 。 熟 悉 线性 代数 、 概 率 
和 基本 机 天 学 习 概 念 的 读者 可 以 跳 过 第 一 部 分 ， 例 如 ， 当 读者 只 是 想 实 现 一 个 能 工 
作 的 系统 则 不 需要 阅读 超出 第 二 部 分 的 内 容 。 为 了 帮助 读者 选择 章节 ， 图 1.6 展示 了 
这 本 书 的 高 层 组 织 结构 的 流程 图 。 

我 们 假设 所 有 读者 都 具备 计算 机 科学 背景 。 也 假设 读者 熟悉 编程 ， 并 且 对 计算 
的 性 能 问题 、 复 杂 性 理论 、 入 门 级 微 积分 和 一 些 图 论 术 语 有 基本 的 了 解 。 
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图 1.6: 本 书 的 高 层 组 织 。 从 一 章 到 另 一 章 的 箭头 表示 前 一 章 是 理解 后 一 草 的 必 备 内 容 。 








1.2 ”深度 学 习 的 历史 趋势 














通过 历史 背景 了 解 深度 学 习 是 最 简单 的 方式 。 这 里 我 们 仅 指出 深度 学 习 的 几 个 
关键 趋势 ， 而 不 是 提供 其 详细 的 历史 : 
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。 深度 学 习 有 着 悠久 而 丰富 的 历史 ， 但 随 着 许多 不 同 哲学 观点 的 渐渐 消逝 ， 与 之 
对 应 的 名 称 也 渐渐 尘封 。 


。 随 着 可 用 的 训练 数据 量 不 断 增 加 ， 深 度 学 习 变 得 更 加 有 用 。 


。 随 着 时 间 的 推移 ， 针 对 深度 学 习 的 计算 机 软 硬 件 基础 设施 都 有 所 改善 ， 深 度 学 
习 模 型 的 规模 也 随 之 增长 。 


。 随 着 时 间 的 推移 ， 深 度 学 习 已 经 解决 日 益 复 杂 的 应 用 ， 并 且 精 度 不 断 提 高 。 


1.2.1 ”神经 网 络 的 众多 名 称 和 命运 变迁 


我 们 期 待 这 本 书 的 许多 读者 都 听 说 过 深度 学 习 这 一 激动 人 心 的 新 技术 ， 并 对 一 
本 书 提 及 一 个 新 兴 领 域 的 “历史 ”而 感到 惊讶 。 事 实 上 ， 深 度 学 习 的 历史 可 以 追溯 到 
20 世纪 40 年 代 。 深 度 学 习 看 似 是 一 个 全 新 的 领域 ， 只 不 过 因为 在 目前 流行 的 前 几 
年 它 是 相对 冷门 的 ， 同 时 也 因为 它 被 赋予 了 许多 不 同 的 名 称 (其 中 大 部 分 已 经 不 再 
使 用 )， 最 近 才 成 为 众所周知 的 “深度 学 习 ”。 这 个 领域 已 经 更 换 了 很 多 名 称 ， 它 反映 
了 不 同 的 研究 人 员 和 不 同 观 点 的 影响 。 

全 面 地 讲述 深度 学 习 的 历史 超出 了 本 书 的 范围 。 然 而 , 一 些 基本 的 背景 对 理解 次 
度 学 习 是 有 用 的 。 一 般 来 说 ， 目 前 为 止 深 度 学 习 已 经 经 历 了 三 次 发 展 浪 潮 : 20 世纪 
40 年 代 到 60 年 代 深 度 学 习 的 骏 形 出 现在 控制 论 (cybernetics ) 中 ,20 世纪 80 年 代 
到 90 年 代 深 度 学 习 表 现 为 联结 主义 (connectionism )， 直 到 2006 年 ， 才 真正 以 深 
度 学 习 之 名 复兴 。 图 1.7 给 出 了 定量 的 展示 。 

我 们 今天 知道 的 一 些 最 早 的 学 习 算 法 ， 是 骨 在 模拟 生物 学 习 的 计算 模型 ， 即 大 
脑 怎样 学 习 或 为 什么 能 学 习 的 模型 。 其 结果 是 深度 学 习 以 人 工 神经 网 络 (artificial 
neural network, ANN ) 之 名 而 淡 去 。 彼 时 ， 深 度 学 习 模 型 被 认为 是 受 生 物 大 脑 (无 
论 人 类 大 脑 或 其 他 动物 的 大 脑 ) 所 启发 而 设计 出 来 的 系统 。 尽 管 有 些 机 器 学 习 的 神 
经 网 络 有 时 被 用 来 理解 大 脑 功 能 (Hinton and Shallice, 1991) ， 但 它们 一 般 都 没有 被 
设计 成 生物 功能 的 真实 模型 。 深 度 学 习 的 神经 观点 受 两 个 主要 思想 启发 。 一 个 想法 
是 大 脑 作为 例子 证 明智 能 行为 是 可 能 的 ， 因 此 ， 概 念 上 ， 建 立 智能 的 直接 途径 是 逆 
向 大 脑 背 后 的 计算 原理 ， 并 复制 其 功能 。 另 一 种 看 法 是 ， 理 解 大 脑 和 人 类 智能 背后 
的 原理 也 非常 有 趣 ， 因 此 机 器 学 习 模型 除了 解决 工程 应 用 的 能 力 ， 如 果 能 让 人 类 对 
这 些 基 本 的 科学 问题 有 进一步 的 认识 也 将 会 很 有 用 。 
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图 1.7: 根据 Goosgle 图 书 中 短语 “控制 论 ”"、“ 联 结 主义 ”或 “神经 网 络 ” 频 率 衡 量 的 人 工 神经 网 
络 研 究 的 历史 浪潮 〈 图 中 展示 了 三 次 浪潮 的 前 两 次 ， 第 三 次 最 近 才 出 现 ) 。 第 一 次 浪潮 开始 于 
20 世纪 40 年 代 到 20 世纪 60 年 代 的 控制 论 ， 随 着 生物 学 习 理 论 的 发 展 人 and Pitts， 
1943; Hebb, 1949) 和 第 一 个 模型 的 实现 〈 如 感知 机 (Rosenblatt, 1958) ) ， 能 实现 单个 神经 元 的 
训练 。 第 二 次 浪潮 开始 于 1980-1995 年 间 的 联结 主义 方法 ， 可 以 使 用 反 向 传播 (Rumelhart et al.， 
1986a) 训练 具有 一 两 个 隐藏 层 的 神经 网 络 。 当 前 第 三 次 浪潮 , 也 就 是 次 度 学 习 ,， 大 约 始 于 2006 年 
(Hinton et al/., 2006a; Bengio et al., 2007a; Ranzato et al.，2007a) ， 。 现在 在 2016 年 以 书 的 形 
式 出 现 。 另 外 两 次 浪潮 类 似 地 出 现在 书 中 的 时 间 比 相应 的 科学 活动 晚 得 













































































现代 术语 “深度 学 习 ” 超 越 了 ， 前 机 器 学 习 模 型 的 神经 科学 观点 。 它 诉 诸 于 学 
习 多 层次 组 合 这 一 更 普遍 的 原理 ， 这 一 原理 也 可 以 应 用 于 那些 并 非 受 神经 科学 启发 
的 机 器 学 习 框架 。 

现代 深度 学 习 的 最 早 前 身 是 从 神经 科学 的 角度 出 发 的 简单 线性 模型 。 这 些 模型 
被 设计 为 使 用 一 组 ”个 输入 加 并 将 它们 与 一 个 输出 y 相关 联 。 这 些 模型 希 
望 学 习 一 组 权重 wa .，,ww， 并 计算 它们 的 输出 Ac ww) = mu 十 十 和 ns。 如 
图 1.7 所 示 ， 这 第 一 波 神经 网 络 研究 浪潮 被 称 为 控制 论 。 

McCulloch-Pitts 神经 元 (McCulloch and Pitts, 1943) 是 脑 功能 的 早期 模型 。 该 
线性 模型 通过 检验 函数 /z, w) 的 正 负 来 识别 两 种 不 同类 别 的 输入 。 显 然 ， 模 型 的 
权重 需要 正确 设置 后 才能 使 模型 的 输出 对 应 于 期 望 的 类 别 。 这 些 权重 可 以 由 操作 人 
员 设 定 。 在 20 世纪 50 年 代 ， 感 知 机 (Rosenblatt, 1956, 1958) 成 为 第 一 个 能 根据 
每 个 类 别 的 输入 样本 来 学 习 权 重 的 模型 。 约 在 同一 时 期 ， 自 适应 线性 单元 (adaptive 
linear element, ADALINE) 简单 地 返回 函数 /z) 本 身 的 值 来 预测 一 个 实数 (Widrow 
and Hof, 1960)， 并 且 它 还 可 以 学 习 从 数据 预测 这 些 数 。 
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这 些 简 单 的 学 习 算法 大 大 影响 了 机 器 学 习 的 现代 景象 。 用 于 调节 ADALINE 权 
重 的 训练 算法 是 被 称 为 随机 梯度 下 降 ( stochastic gradient descent ) 的 一 种 特例 。 稍 
加 改进 后 的 随机 梯度 下 降 算 法 仍然 是 当今 深度 学 习 的 主要 训练 算法 。 

基于 感知 机 和 ADALINE 中 使 用 的 函数 /zx, w) 的 模型 被 称 为 线性 模型 (linear 
model )。 尽 管 在 许多 情况 下 ， 这 些 模型 以 不 同 于 原始 模型 的 方式 进行 训练 ， 但 仍 是 
目前 最 广泛 使 用 的 机 器 学 习 模 型 。 

线性 模型 有 很 多 局 限 性 。 最 著名 的 是 ， 它 们 无 法 学 习 异 或 (XOR ) 本 数 ， 即 
Fo =1 和 Fo =1,， 但 FU =0 和 JI0,0,o) = 0。 观 察 到 线 
性 模型 这 个 缺陷 的 批评 者 对 受 生 物 学 启发 的 学 习 普 遍地 产生 了 抵触 (Minsky and 
Papert, 1969)。 这 导致 了 神经 网 络 热潮 的 第 一 次 大 衰退 。 

现在 ， 神 经 科学 被 视 为 深度 学 习 研究 的 一 个 重要 灵感 来 源 ， 但 它 已 不 再 是 该 领 
域 的 主要 指导 。 

如 今 神 经 科学 在 深度 学 习 研 究 中 的 作用 被 削弱 ， 主 要 原因 是 我 们 根本 没有 足够 
的 关于 大 脑 的 信息 来 作为 指导 去 使 用 它 。 要 获得 对 被 大 脑 实际 使 用 算法 的 识 刻 理 解 ， 
我 们 需要 有 能 力 同 时 监测 (至少 是 ) 数 千 相连 神经 元 的 活动 。 我 们 不 能 够 做 到 这 一 
点 ， 所 以 我 们 甚至 连 大脑 最 简单 、 最 深入 研究 的 部 分 都 还 远 远 没有 理解 (Olshausen 
and Field, 2005)。 

神经 科学 已 经 给 了 我 们 依靠 单一 深度 学 习 算 法 解决 许多 不 同 任务 的 理由 。 神 经 
学 家 们 发 现 ,如果 将 雪 貂 的 大 脑 重 新 连接 ,使 视觉 信号 传送 到 听觉 区 域 , 它们 可 以 学 
会 用 大 脑 的 听觉 处 理 区 域 去 “看 ”(Von Melchner et o, 2000)。 这 暗示 着 大 多 数 哺乳 
动物 的 大 脑 能 够 使 用 单一 的 算法 就 可 以 解决 其 大 脑 可 以 解决 的 大 部 分 不 同 任务 。 在 
这 个 假设 之 前 ， 机 器 学 习 研 究 是 比较 分 散 的 ， 研 究 人 员 在 不 同 的 社 群 研究 自然 语言 
处 理 、 计 算 机 视觉 、 运 动 规划 和 语音 识别 。 如 今 ， 这 些 应 用 社 群 仍然 是 独立 的 ,但 是 
对 于 深度 学 习 研 究 团体 来 说 ， 同 时 研究 许多 或 甚至 所 有 这 些 应 用 领域 是 很 常见 的 。 

我 们 能 够 从 神经 科学 得 到 一 些 粗略 的 指南 。 仅 通过 计算 单元 之 间 的 相互 作用 而 
变 得 智能 的 基本 思想 是 受 大 脑 启发 的 。 新 认 知 机 (Fukushima, 1980) 受 哺 乳 动 物 视 
觉 系统 的 结构 启发 ， 引 入 了 一 个 处 理 图 片 的 强大 模型 架构 ， 它 后 来 成 为 了 现代 卷 积 
网 络 的 基础 (LeCun et al., 1998c) (我 们 将 会 在 第 9.10 节 看 到 )。 目 前 大 多 数 神经 网 
络 是 基于 一 个 称 为 整流 线性 单元 (rectifted linear unit ) 的 神经 单元 模型 。 原 始 认 
知 机 (Fukushima, 1975) 受 我 们 关于 大 脑 功能 知识 的 启发 ， 引 入 了 一 个 更 复杂 的 版 
本 。 简 化 的 现代 版 通过 吸收 来 自 不 同 观点 的 思想 而 形成 ，Nair and Hinton (2010b) 
































1.2 深度 学 习 的 历史 趋势 15 


和 Glorot et ol. (2011a) 援引 神经 科学 作为 影响 ，Jarrett et oa/. (2009a) 援引 更 多 面 
向 工程 的 影响 。 虽 然 神经 科学 是 灵感 的 重要 来 源 ， 但 它 不 需要 被 视 为 刚性 指导 。 我 
们 知道 ， 真 实 的 神经 元 计算 着 与 现代 整流 线性 单元 非常 不 同 的 函数 ， 但 更 接近 真实 
神经 网 络 的 系统 并 没有 导致 机 器 学 习性 能 的 提升 。 此 外 ， 虽 然 神 经 科学 已 经 成 功 地 
启发 了 一 些 神经 网 络 架构 ， 但 我 们 对 用 于 神经 科学 的 生物 学 习 还 没有 足够 多 的 了 解 ， 
因此 也 就 不 能 为 训练 这 些 架 构 用 的 学 习 算 法 提供 太 多 的 借鉴 。 

媒体 报道 经 常 强调 深度 学 习 与 大 脑 的 相似 性 。 的 确 ， 深 度 学 习 研 究 者 比 其 他 机 
器 学 习 领 域 (如 核 方法 或 贝 叶 斯 统计 ) 的 研究 者 更 可 能 地 引用 大 脑 作为 影响 ， 但 是 
大 家 不 应 该 认为 深度 学 习 在 尝试 模拟 大 脑 。 现 代 深 度 学 习 从 许多 领域 获取 灵感 ， 特 
别 是 应 用 数学 的 基本 内 容 如 线性 代数 、 概 率 论 、 信 息 论 和 数值 优化 。 尽 管 一 些 深 度 
学 习 的 研究 人 员 引 用 神经 科学 作为 灵感 的 重要 来 源 ， 然 而 其 他 学 者 完全 不 关心 神经 
科学 。 

值得 注意 的 是 ， 了 解 大脑 是 如 何在 算法 层面 上 工作 的 尝试 确 实 存在 且 发 展 良好 。 
这 项 尝试 主要 被 称 为 “计算 神经 科学 ”， 并 且 是 独立 于 深度 学 习 的 领域 。 研 究 人 员 在 
两 个 领域 之 间 来 回 研 究 是 很 常见 的 。 深 度 学 习 领 域 主 要 关注 如 何 构建 计算 机 系统 ， 
从 而 成 功 解 决 需要 智能 才能 解决 的 任务 ， 而 计算 神经 科学 领域 主要 关注 构建 大 脑 如 
何 真实 工作 的 比较 精确 的 模型 。 

在 20 节 纪 80 年 代 ， 神 经 网 络 研 究 的 第 二 次 浪潮 在 很 大 程度 上 是 伴随 一 个 被 称 
为 联结 主义 (connectionism ) 或 并 行 分 布 处 理 ( parallel distributed processing) 漳 
流 而 出 现 的 (Rumelhart et oL，1986d; McClelland et oL，1995)。 联 结 主义 是 在 认 知 
科学 的 背景 下 出 现 的 。 认 知 科学 是 理解 思维 的 跨 学 科 途 径 ， 即 它 融 合 多 个 不 同 的 分 
析 层 次 。 在 20 世纪 80 年 代 初 期 ， 大 多 数 认 知 科学 家 研究 符号 推理 模型 。 尽 管 这 很 
流行 ， 但 符号 模型 很 难 解释 大 脑 如 何 真 正 使 用 神经 元 实现 推理 功能 。 联 结 主义 者 开 
始 研究 真正 基于 神经 系统 实现 的 认 知 模型 (Touretzky and Minton, 1985)， 其 中 很 
多 复苏 的 想法 可 以 追溯 到 心理 学 家 Donald Hebb 在 20 世纪 40 年 代 的 工作 (Hebb， 
1949)。 

联结 主义 的 中 心思 想 是 ， 当 网 络 将 大 量 简单 的 计算 单元 连接 在 一 起 时 可 以 实现 
智能 行为 。 这 种 见解 同样 适用 于 生物 神经 系统 中 的 神经 元 ， 因 为 它 和 计算 模型 中 隐 
藏 单元 起 着 类 似 的 作用 。 

在 上 世纪 80 年 代 的 联结 主义 期 间 形 成 的 几 个 关键 概念 在 今天 的 深度 学 习 中 仍然 
是 非常 重要 的 。 
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其 中 一 个 概念 是 分布 式 表示 (distributed representation ) (Hinton et al.,，1986)。 
其 思想 是 : 系统 的 每 一 个 输入 都 应 该 由 多 个 特征 表示 ， 并 且 每 一 个 特征 都 应 该 参与 
到 多 个 可 能 输入 的 表示 。 例 如 ， 假 设 我 们 有 一 个 能 够 识别 红色 、 绿 色 、 或 蓝 色 的 汽 
车 、 卡 车 和 鸟 类 的 视觉 系统 ,表示 这 些 输入 的 其 中 一 个 方法 是 将 九 个 可 能 的 组 合 : 红 
卡车 ， 红 汽车 ， 红 鸟 ， 绿 卡车 等 等 使 用 单独 的 神经 元 或 隐藏 单元 激活 。 这 需要 九 个 
不 同 的 神经 元 ， 并 且 每 个 神经 必须 独立 地 学 习 颜色 和 对 象 身 份 的 概念 。 改 善 这 种 情 
况 的 方法 之 一 是 使 用 分 布 式 表示 ， 即 用 三 个 神经 元 描述 颜色 ， 三 个 神经 元 描述 对 象 
身份 。 这 仅仅 需要 6 个 神经 元 而 不 是 9 个 ， 并 且 撒 述 红 色 的 神经 元 能 够 从 汽车 、 卡 
车 和 鸟 类 的 图 像 中 学 习 红 色 ， 而 不 仅仅 是 从 一 个 特定 类 别 的 图 像 中 学 习 。 分 布 式 表 
示 的 概念 是 本 书 的 核心 ， 我 们 将 在 第 十 五 章 中 更 加 详细 地 描述 。 

联结 主义 潮流 的 另 一 个 重要 成 就 是 反 向 传播 在 训练 具有 内 部 表示 的 次 度 神 经 网 
络 中 的 成 功 使 用 以 及 反 向 传播 算法 的 普及 (Rumelhart et ol., 1986c; LeCun，1987)。 
这 个 算法 虽然 曾 菊 然 失色 不 再 流行 ， 但 截至 写 书 之 时 ， 它 仍 是 训练 深度 模型 的 主导 
方法 。 

在 20 世纪 90 年 代 ， 研 究 人 员 在 使 用 神经 网 络 进行 序列 建 模 的 方面 取得 了 重 
要 进展 。Hochreiter (1991b) 和 Bengio et al!. (1994a) 指出 了 对 长 序列 进行 建 模 的 一 
些 根 本 性 数学 难题 ， 这 将 在 第 10.7 节 中 描述 。Hochreiter and Schmidhuber (1997) 
引入 长 短期 记忆 (long short-term memory, LSTM ) 网 络 来 解决 这 些 难题 。 如 今 ， 
LSTM 在 许多 序列 建 模 任 务 中 广泛 应 用 ， 包 括 Google 的 许多 自然 语言 处 理 任务 。 

神经 网 络 研 究 的 第 二 次 浪潮 一 直 持续 到 上 世纪 90 年 代 中 期 。 基 于 神经 网 络 和 其 
他 AI 技术 的 创业 公司 开始 寻求 投资 ， 其 做 法 野心 勃勃 但 不 切实 际 。 当 AI 研究 不 能 实 
现 这 些 不 合理 的 期 望 时 ， 投 资 者 感到 失望 。 同 时 ， 机 器 学 习 的 其 他 领域 取得 了 进步 。 
比如 ， 核 方法 (Boser et al.，1992; Cortes and Vapnik，1995; Sch6lkopf et al.，1999) 
和 网 模型 (Jordan, 1998) 都 在 很 多 重要 任务 上 实现 了 很 好 的 效果 。 这 两 个 因素 导致 
了 神经 网 络 热潮 的 第 二 次 衰退 ， 并 一 直 持续 到 2007 年 。 

在 此 期 间 , 神经 网 络 继续 在 某 些 任务 上 获得 令 人 印象 深刻 的 表现 (LeCun 
et ul.，1998c; Bengio et al.，2001a)。 加 拿 大 高 级 研究 所 (CIFAR ) 通过 其 神经 计 
算 和 自 适应 感知 (NCAP ) 研究 计划 帮助 维持 神经 网 络 研究 。 该 计划 联合 了 分 别 
由 Geoffrey Hinton 、Yoshua Bengio 和 Yann LeCun 领导 的 多 伦 多 大 学 、 蒙 特 利 尔 大 
学 和 纽约 大 学 的 机 器 学 习 人 研究 小 组 。 这 个 多 学 科 的 CIFAR NCAP 研究 计划 还 圳 括 
了 神经 科学 家 、 人 类 和 计算 机 视觉 专家 。 
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在 那个 时 候 ， 人 们 善 遍 认为 深度 网 络 是 难以 训练 的 。 现 在 我 们 知道 ，20 世纪 80 
年 代 就 存在 的 算法 能 工作 得 非常 好 ， 但 是 直到 在 2006 年 前 后 都 没有 体现 出 来 。 这 可 
能 仅仅 由 于 其 计算 代价 太 高 ， 而 以 当时 可 用 的 硬件 难以 进行 足够 的 实验 。 

神经 网 络 研 究 的 第 三 次 浪潮 始 于 2006 年 的 突破 。Geoffrey Hinton 表明 名 为 深 
度 信念 网 络 的 神经 网 络 可 以 使 用 一 种 称 为 贪 焚 逐 层 预 训练 的 策略 来 有 效 地 训练 
(Hinton et ol., 2006a) ， 我 们 将 在 第 15.1 节 中 更 详细 地 描述 。 其 他 CIFAR 附属 研究 
小 组 很 快 表 明 ， 同 样 的 策略 可 以 被 用 来 训练 许多 其 他 类 型 的 深度 网 络 (Bengio and 
LeCun, 2007a; Ranzato et ul., 2007b)， 并 能 系统 地 帮助 提高 在 测试 样 例 上 的 泛 化 能 
力 。 神 经 网 络 研究 的 这 一 次 浪潮 普及 了 “深度 学 习 ” 这 一 术语 的 使 用 ， 强 调研 究 者 
现在 有 能 力 训练 以 前 不 可 能 训练 的 比较 深 的 神经 网 络 ， 并 着 力 于 深度 的 理论 重要 
性 上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et al.，2014ai 
Montufar et w， 2014)。 此 时 ， 深 度 神 经 网 络 已 经 优 于 与 之 竞争 的 基于 其 他 机 器 学 
习 技 术 以 及 手工 设计 功能 的 AI 系统 。 在 写 这 本 书 的 时 候 ， 神 经 网 络 的 第 三 次 发 展 浪 
潮 仍 在 继续 ， 尽 管 深度 学 习 的 研究 重点 在 这 一 段 时 间 内 发 生 了 巨大 变化 。 第 三 次 浪 
潮 已 开始 着 眼 于 新 的 无 监督 学 习 技 术 和 次 度 模 型 在 小 数据 集 的 泛 化 能 力 ， 但 目前 更 
多 的 兴趣 点 仍 是 比较 传统 的 监督 学 习 算 法 和 深度 模型 充分 利用 大 型 标注 数据 集 的 能 
5 


























1.2.2 与日俱增 的 数据 量 


人 们 可 能 想 问 ， 既 然 人 工 神经 网 络 的 第 一 个 实验 在 20 世纪 50 年 代 就 完成 了 ， 
但 为 什么 深度 学 习 直 到 最 近 才 被 认为 是 关键 技术 。 自 20 世纪 90 年 代 以 来 ， 深 度 学 
习 就 已 经 成 功用 于 商业 应 用 ， 但 通常 被 视 为 是 一 种 只 有 专家 才 可 以 使 用 的 艺术 而 不 
是 一 种 技术 ， 这 种 观点 一 直 持续 到 最 近 。 确 实 ， 要 从 一 个 深度 学 习 算 法 获得 良好 的 
性 能 需要 一 些 技巧 。 幸 运 的 是 ， 随 着 训练 数据 的 增加 ， 所 需 的 技巧 正在 减少 。 目 前 
在 复杂 的 任务 达到 人 类 水 平 的 学 习 算 法 ,与 20 世纪 80 年 代 努 力 解决 玩具 问题 (toy 
problem) 的 学 习 算 法 几乎 是 一 样 的 ， 尽 管 我 们 使 用 这 些 算 法 训练 的 模型 经 历 了 变革 ， 
即 简化 了 极 深 架构 的 训练 。 最 重要 的 新 进展 是 现在 我 们 有 了 这 些 算法 得 以 成 功 训 练 
所 需 的 资源 。 图 1.8 展示 了 基准 数据 集 的 大 小 如 何 随 着 时 间 的 推移 而 显著 增加 。 这 
种 趋势 是 由 社会 日 益 数字 化 驱动 的 。 由 于 我 们 的 活动 越 来 越 多 发 生 在 计算 机 上 ， 我 
们 做 什么 也 越 来 越 多 地 被 记录 。 由 于 我 们 的 计算 机 越 来 越 多 地 联网 在 一 起 ， 这 些 记 
录 变 得 更 容易 集中 管理 ， 并 更 容易 将 它们 整理 成 适 于 机 器 学 习 应 用 的 数据 集 。 因 为 
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统计 估计 的 主要 负担 ( 观察 少量 数据 以 在 新 数据 上 泛 化 ) 已 经 减轻 ,“ 大 数据” 时代 
使 机 器 学 习 更 加 容易 。 截 至 2016 年 ， 一 个 粗略 的 经 验 法 则 是 ， 监 督 深度 学 习 算法 在 
每 类 给 定 约 5000 个 标注 样本 情况 下 一 般 将 达到 可 以 接受 的 性 能 ， 当 至 少 有 1000 万 
个 标注 样本 的 数据 集 用 于 训练 时 ， 它 将 达到 或 超过 人 类 表现 。 此 外 ， 在 更 小 的 数据 
集 上 获得 成 功 是 一 个 重要 的 研究 领域 ， 为 此 我 们 应 特别 侧重 于 如 何 通过 无 监督 或 半 
监督 学 习 充 分 利用 大 量 的 未 标注 样本 。 


Dataset size (number examples) 





1900 1950 1985 2000 2015 


1.8: 与 日 俱 增 的 数据 量 。20 世纪 初 ， 统 计 学 家 使 用 数 百 或 数 千 的 手动 制作 的 度量 来 研究 数据 集 
(Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936)。20 世纪 50 年 代 到 80 年 代 , 受 生 物 
启发 的 机 器 学 习 开 拓 者 通常 使 用 小 的 合成 数据 集 ， 如 低 分 辩 率 的 字母 位 图 , 设计 为 在 低 计算 成 本 下 
表明 神经 网 络 能 够 学 习 特 定 功能 (Widrow and Hof, 1960; Rumelhart et al!., 1986b)。20 世纪 80 
年 代 和 90 年 代 ， 机 器 学 习 变 得 更 加 统计 ， 并 开始 利用 包含 成 千 上 万 个 样本 的 更 大 数据 集 ， 如 手写 
扫描 数字 的 MNIST 数据 集 ( 如 图 1.9 ) 所 示 (LeCun et al., 1998c)。 在 21 世纪 初 的 第 一 个 十 年 ， 
相同 大 小 更 复杂 的 数据 集 持 续 出 现 ， 如 CIFAR-10 数据 集 (Krizhevsky and Hinton,， 2009) 。 在 这 
十 年 结束 和 下 五 年 ， 明 显 更 大 的 数据 集 (包含 数 万 到 数 千 万 的 样 例 ) 完全 改变 了 深度 学 习 的 可 能 
实现 的 事 。 这 些 数据 集 包 括 公 共 Street View House Numbers 数据 集 (Netzer et al., 2011)、 各 种 
版 本 的 ImageNet 数据 集 (Deng et ol!., 2009, 2010a; Russakovsky et al., 2014a) 以 及 Sports-1M 
数据 集 (Karpathy et al., 2014)。 在 图 顶部 ， 我 们 看 到 翻译 句子 的 数据 集 通 常 远大 于 其 他 数据 集 ， 
如 根据 Canadian Hansard 制作 的 IBM 数据 集 (Brown et al.,，1990) 和 WMT 2014 英法 数据 集 
(Schwenk,， 2014) 。 




















1.2 深度 学 习 的 历史 趋势 19 


| 太一 | 一 | 和 SNSNISINO 二 | 二 | 一 
久 | 扩 | 四 | 人 一 人 2 祝 | 六 人员 | 中 一 上 NS 
SN 上 |IGIP 一 lm JSINIselselN sa 
\ 兴 WIIGIADRNo 人 SI 一 IN 二 | 一 -NS 
避 | 人 外 | 亡 | -omRIQOIl-o 全 NIANIDRIDIIISINI 
AI 必 WN 下 JIDI-ecIOINIAIWI~ sos 
怀 |ee| 个 |-| 人 Im 内 | 中 上 | 一 | 大 INI bs ww 
lv 办 -JW 人 NANSNNNI 岂 | 二 | 太 
马 | NI 拉 CDNAISIA 一 | 全 一 | 
欠 | 一 | 己 | 吧 | 一 | 人 | 下 | 下 | 全 | 从 |~ICIANINNINIsel 
卡 | 内 | 一 | 四 | 宁 | 六 BIO 本 AR 让 INRIRIN 
一 ~ 内 oo 一 | 三 | 信人 INWSI 表 NS 
“| 让 | 六 | 内 | 一 | 斑 | 一 GUIISNSNNISINICs ol 


8 
六 
0 
3 
色 
/ 
了 
L 
户 
6 
3 
阿 
4 
1 
二 
9 
隐 ) 
9 


-| 加 | 大 |o 只 区 W 六 I 避 |I 司 站 人 | 一 | 
5 个 六 | 一 | 一 | 个 ImIBIGI 天 IC 本 | 汪 | 一 | 全 | 立 | 全 | 
AN IWImNINNINISSIGISISNI eeNNIw 
外 | 一 on|~| 四 | 下 | 四 |S| 下 |I 届 IININIS 一 | 从 | 四 | 玉 
站 | 内 Il- 内 四 INIAAIWICGISISSIsol IN 
一 NIWN 一 | 中 | 天 | 玉 | 四 | 信人 | 太 | 内 SI 一 II~s 


cq 
个 
人 
证 
人 
WN 
| 
\\ 
》 
W 














图 1.9: MNIST 数据 集 的 输入 样 例 。“NIST” 代表 国家 标准 和 技术 研究 所 (National Institute of 
Standards and Technology),， 是 最 初 收集 这 些 数 据 的 机 构 。“M?” 人 代表“ 修改 的 (Modified)”， 为 更 
容易 地 与 机 器 学 习 算 法 一 起 使 用 ， 数 据 已 经 过 预 处 理 。MNIST 数据 集 包 括 手 写 数字 的 扫描 和 相关 
标签 〈 描述 每 个 图 像 中 包含 0-9 中 哪个 数字 )。 这 个 简单 的 分 类 问题 是 深度 学 习 研 究 中 最 简单 和 最 
广泛 使 用 的 测试 之 一 。 尽 管 现代 技术 很 容易 解决 这 个 问题 ， 它 仍然 很 受 欢 迎 。Gteoffrey Hinton 将 
其 描述 为 “机 器 学 习 的 果 晶 ”， 这 意味 着 机 器 学 习 研 究 人 员 可 以 在 受 控 的 实验 室 条 件 下 研究 他 们 的 
算法 ， 就 像 生 物 学 家 经 常 研究 果 晶 一 样 。 




































































1.2.3 “与日俱增 的 模型 规模 


20 世纪 80 年 代 ， 神 经 网 络 只 能 取得 相对 较 小 的 成 功 ， 而 现在 神经 网 络 非常 成 
功 的 另 一 个 重要 原因 是 我 们 现在 拥有 的 计算 资源 可 以 运行 更 大 的 模型 。 联 结 主义 的 
主要 见解 之 一 是 ， 当 动物 的 许多 神经 元 一 起 工作 时 会 变 得 聪明 。 单 独 神经 元 或 小 集 
合 的 神经 元 不 是 特别 有 用 。 
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生物 神经 元 不 是 特别 稠密 地 连接 在 一 起 。 如 图 1.10 所 示 ， 几 十 年 来 ， 我 们 的 机 
顺 学 习 模 型 中 每 个 神经 元 的 连接 数量 已 经 与 哺乳 动物 的 大 脑 在 同一 数量 级 上 。 
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1.10: 与 日 俱 增 的 每 神经 元 连接 数 。 最 初 ， 人 工 神经 网 络 中 神经 元 之 间 的 连接 数 受 限于 硬件 能 
力 。 而 现在 ， 神 经 元 之 间 的 连接 数 大 多 是 出 于 设计 考虑 。 一 些 人 工 神经 网 络 中 每 个 神经 元 的 连接 
数 与 猫 一 样 多 ， 并 且 对 于 其 他 神经 网 络 来 说 ， 每 个 神经 元 的 连接 与 较 小 哺乳 动物 ( 如 小 鼠 ) 一 
样 多 是 非常 普遍 的 。 甚 至 人 类 大 脑 每 个 神经 元 的 连接 也 没有 过 高 的 数量 。 生 物 神 经 网 络 规模 来 
自 Wikipedia (2015)。 


























自 适应 线性 单元 (VVidrow and Hof, 1960) 
神经 认 知 机 (Fukushima，1980) 
GPU- 加 速 卷 积 网 络 (Chellapilla et al.，2006) 


深度 玻 尔 效 曼 机 (Salakhutdinov and Hinton，2009a) 


GPU- 加 速 多 层 感知 机 (Ciresan et al.，2010) 
分 布 式 自 编码 器 (Le et a1.，2012) 


1: 

2. 

3. 

人 

5 无 监督 卷 积 网 络 (Jarrett et al.，2009b) 
6. 

各 

8，Multi-GPU 卷 积 网 络 (Krizhevsky et al.，2012a) 
9. 


COTS HPC 无 监督 卷 积 网 络 (Coates et al.，2013) 


10，GoogLeNet (Szegedy et al.，2014a) 


如 图 1.11 所 示 ， 就 神经 元 的 总 数目 而 言 ， 直 到 最 近 神 经 网 络 都 是 怀 人 的 小 。 自 
从 隐藏 单元 引入 以 来 ， 人工 神经 网 络 的 规模 大 约 每 2.4 年 扩大 一 倍 。 这 种 增长 是 由 
更 大 内 存 、 更 快 的 计算 机 和 更 大 的 可 用 数据 集 驱动 的 。 更 大 的 网 络 能 够 在 更 复杂 的 
任务 中 实现 更 高 的 精度 。 这 种 趋势 看 起 来 将 持续 数 十 年 。 除 非 有 能 力 迅 速 扩展 的 新 
技术 ， 和 否则 至 少 要 到 21 世纪 50 年 代 ， 人 工 神经 网 络 将 才能 具备 与 人 脑 相 同 数量 级 
的 神经 元 。 生 物 神 经 元 表示 的 功能 可 能 比 目 前 的 人 工 神经 元 所 表示 的 更 复杂 ， 因 此 
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生物 神经 网 络 可 能 比 图 中 描绘 的 甚至 要 更 大 。 
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1.11: 与 日 俱 增 的 神经 网 络 规模 。 自 从 引入 隐藏 单元 ， 人 工 神 经 网 络 的 大 小 大 约 每 2.4 年 翻 一 
借 。 生 物 神 经 网 络 规模 来 自 Wikipedia (2015)。 
1.， 感知 机 (Rosenblatt，1958，1962) 


2 自 适应 线性 单元 (Vidrow and Hof,， 1960) 
神经 认 知 机 (Fukushima，1980) 


大 当 


早期 后 向 传播 网 络 (Rumelhart et al.，1986b) 
5. 用 于 语音 识别 的 循环 神经 网 络 (Robinson and Fallside，1991) 























6.， 用 于 语音 识别 的 多 层 感 知 机 (Bengio et al.，1991) 
7 均匀 场 sigmoid 信 念 网 络 (Saul et al.，1996) 


8，LeNet-5 (LeCun et al.，1998c) 











9. 回声 状态 网 络 (Jaeger and Haas，2004) 











10. 深度 信念 网 络 (Hinton et al.，2006a) 
11，GPU- 加 速 卷 积 网 络 (Chellapilla et al.，2006) 

12. 深度 玻 尔 效 曼 机 (Salakhutdinov and Hinton，2009a) 
13，GPU- 加 速 深度 信念 网 络 (Raina et al.，2009a) 

14.， 无 监督 卷 积 网 络 (Jarrett et al1.，2009b) 
15，GPU- 加 速 多 层 感知 机 (Ciresan et al.，2010) 
16，OMP-1 网 络 (Coates and Ng,， 2011) 

17.， 分 布 式 自 编码 器 (Le et al.，2012) 

18， Mnulti-GPU 卷 积 网 络 (Krizhevsky et al.，2012a) 





19， COTS HPC 无 监督 卷 积 网 络 (Coates et al.，2013) 


20，GoogLeNet (Szegedy et al.，2014a) 


现在 看 来 ， 其 神经 元 比 一 个 水 皮 还 少 的 神经 网 络 不 能 解决 复杂 的 人 工 智 能 问题 
是 不 足 为 奇 的 。 即 使 现在 的 网 络 ， 从 计算 系统 角度 来 看 它 可 能 相当 大 的 ， 但 实际 上 
它 比 相对 原始 的 兰 椎 动 物 如 青蛙 的 神经 系统 还 要 小 。 


q 
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由 于 更 快 的 CPU、 通 用 GPTU 的 出 现 〈 在 第 12.1.2 节 中 讨论 )、 更 快 的 网 络 连接 
和 更 好 的 分 布 式 计算 的 软件 基础 设施 ， 模 型 规模 随 着 时 间 的 推移 不 断 增 加 是 深度 学 
习 历 史 中 最 重要 的 趋势 之 一 。 人 们 普遍 预计 这 种 趋势 将 很 好 地 持续 到 未 来 。 





1.2.4 “与日俱增 的 精度 、 复 杂 度 和 对 现实 世界 的 冲击 


20 世纪 80 年 代 以 来 ， 深 度 学 习 提供 精确 识别 和 预测 的 能 力 一 直 在 提高 。 而 且 ， 
深度 学 习 持续 成 功 地 被 应 用 于 越 来 越 广泛 的 实际 问题 中 。 

最 早 的 深度 模型 被 用 来 识别 裁剪 紧凑 且 非 常 小 的 图 像 中 的 单个 对 象 (Rumelhart 
ef ol., 1986d) 。 此 后 ,神经 网 络 可 以 处 理 的 图 像 尺寸 逐 渐 增 加 。 现 代 对 象 识 别 网 络 能 
处 理 丰富 的 高 分 辩 率 照片 ， 并 且 不 需要 在 被 识别 的 对 象 附近 进行 裁剪 (Krizhevsky 
ef al., 2012b)。 类 似 地 ， 最 早 的 网 络 只 能 识别 两 种 对 象 (或 在 某 些 情 况 下 ， 单 类 对 象 
的 存在 与 否 )， 而 这 些 现代 网 络 通常 能 够 识别 至 少 1000 个 不 同类 别 的 对 象 。 对 象 识 别 
中 最 大 的 比赛 是 每 年 举行 的 InageNet 大 型 视觉 识别 挑战 (ILSVRC )。 深 度 学 习 迅 
速 崛 起 的 激动 人 心 的 一 幕 是 卷 积 网 络 第 一 次 大 幅 赢得 这 一 挑战 ， 它 将 最 高 水 准 的 前 
5 错误 率 从 26.1% 降 到 15.3% (Krizhevsky et 咏 , 2012b)， 这 意味 着 该 卷 积 网 络 针对 
每 个 图 像 的 可 能 类 别 生成 一 个 顺序 列表 ， 除 了 15.3% 的 测试 样本 ， 其 他 测试 样本 的 
正确 类 标 都 出 现在 此 列表 中 的 前 5 项 里 。 此 后 ， 深 度 卷 积 网 络 连 续 地 赢得 这 些 比 赛 ， 
截至 写本 书 时 ， 深 度 学 习 的 最 新 结果 将 这 个 比赛 中 的 前 5 错误 率 降 到 了 3.6%， 如 
图 1.12 所 示 。 

深度 学 习 也 对 语音 识别 产生 了 巨大 影响 。 语 音 识别 在 20 地 纪 90 年 代 得 到 提 
高 后 ， 直 到 约 2000 年 都 停滞 不 前 。 深 度 学 习 的 引入 (Dahl et al., 2010; Deng et al， 
2010b; Seide et o., 2011; Hinton et al., 2012a) 使 得 语音 识别 错误 率 陡 然 下 降 ， 有 些 
错误 率 甚至 降低 了 一 半 。 我 们 将 在 第 12.3 节 更 详细 地 探讨 这 个 历史 。 

深度 网 络 在 行人 检测 和 图 像 分 割 中 也 取得 了 引 人 注 目的 成 功 (Sermanet et al.， 
2013; Farabet et al., 2013; Couprie et al., 2013)， 并 且 在 交通 标志 分 类 上 取得 了 超越 
人 类 的 表现 (Ciresan et oL, 2012)。 

在 深度 网 络 的 规模 和 精度 有 所 提高 的 同时 ， 它 们 可 以 解决 的 任务 也 日 益 复 杂 。 
Goodfellow et oL. (2014d) 表明 ， 神 经 网 络 可 以 学 习 输 出 描述 图 像 的 整个 字符 序列 ， 
而 不 是 仅仅 识别 单个 对 象 。 此 前 ， 人 们 善 所 认为 ， 这 种 学 习 需 要 对 序列 中 的 单个 元 
素 进 行 标注 (Gulcehre and Bengio, 2013)。 循 环 神经 网 络 ， 如 之 前 提 到 的 LSTM 序 
列 模型 ， 现 在 用 于 对 序列 和 其 他 序列 之 间 的 关系 进行 建 模 ， 而 不 是 仅仅 固定 输入 之 
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图 1.12: 日 益 降 低 的 错误 率 。 由 于 深度 网 络 达到 了 在 ImageNet 大 规模 视觉 识别 挑战 中 竞争 所 必 
需 的 规模 ， 它 们 每 年 都 能 赢得 胜利 ， 并 且 产 生 越 来 越 低 的 错误 率 。 数 据 来 源 于 Russakovsky et al. 
(2014b) 和 He et ao/. (2015)。 




















间 的 关系 。 这 种 序列 到 序列 的 学 习 似 乎 引领 着 另 一 个 应 用 的 颠覆 性 发 展 ， 即 机 器 翻 
译 (Sutskever et a/., 2014; Bahdanau et a/.，2015)。 

这 种 复杂 性 日 益 增 加 的 趋势 已 将 其 推 向 逻辑 结论 ， 即 神经 图 灵机 (Graves et al.， 
2014) 的 引入 ， 它 能 学 习 读 取 存 储 单元 和 向 存储 单元 写 和 人 任意 内 容 。 这 样 的 神经 网 
络 可 以 从 期 望 行 为 的 样本 中 学 习 简 单 的 程序 。 例 如 ， 从 杂 乱 和 排 好 序 的 样本 中 学 习 
对 一 系列 数 进 行 排序 。 这 种 自我 编程 技术 正 处 于 起 步 阶段 ， 但 原则 上 未 来 可 以 适用 
于 几乎 所 有 的 任务 。 

深度 学 习 的 另 一 个 最 大 的 成 就 是 其 在 强化 学 习 (reinforcement learning ) 领域 
的 扩展 。 在 强化 学 习 中 , 一 个 自主 的 智能 体 必须 在 没有 人 类 操作 者 指导 的 情况 下 , 通 
过 试 错 来 学 习 执 行 任务 。DeepMind 表明 ， 基 于 深度 学 习 的 强化 学 习 系 统 能 够 学 会 玩 
Atari 视频 游戏 ， 并 在 多 种 任务 中 可 与 人 类 匹敌 (Mnih et ol., 2015)。 深 度 学 习 也 显 
著 改 善 了 机 器 人 强化 学 习 的 性 能 (Finn et al., 2015)。 

许多 深度 学 习 应 用 都 是 高 利润 的 。 现 在 深度 学 习 被 许多 项 级 的 技术 公司 使 用 , 包 
括 Google、Microsoft 、Facebook 、IBM 、Baiqdu、Apple、Adobe、Netfixz、NVIDIA 
和 NEC 等 。 

深度 学 习 的 进步 也 严重 依赖 于 软件 基础 架构 的 进展 。 软件 库 如 Theano (Bergstra 
et al., 2010a; Bastien et al., 2012a)、PyLearn2 (Goodfellow et al., 2013e) 、Torch (Col- 
lobert et al., 2011b)、DistBelief (Dean et ol., 2012) 、Caffe (Jia, 2013) 、MXNet (Chen 




















g 


24 第 一 章 引 


et oL, 2015) 和 TensorFlow (Abadi el oL., 2015) 都 能 支持 重要 的 研究 项 目 或 商业 产 


器 
DDo 





深度 学 习 也 为 其 他 科学 做 出 了 贡献 。 用 于 对 象 识别 的 现代 卷 积 网 络 为 神经 科 
学 家 们 提供 了 可 以 研究 的 视觉 处 理 模型 (DiCarlo, 2013)。 深 度 学 习 也 为 处 理 海 量 
数据 以 及 在 科学 领域 作出 有 效 的 预测 提供 了 非常 有 用 的 工具 。 它 已 成 功 地 用 于 预 
测 分 子 如 何 相互 作用 从 而 帮助 制药 公司 设计 新 的 药物 (Dabhl et oL,，2014) ， 搜 索 亚 
原子 粒子 (Baldi et ol.，2014)， 以 及 自动 解析 用 于 构建 人 脑 三 维 图 的 显微镜 图 像 
(Knowles-Barley et al., 2014) 等 。 我 们 期 待 深度 学 习 未 来 能 够 出 现在 越 来 越 多 的 科 
学 领域 中 。 

总 之 ， 深 度 学 习 是 机 器 学 习 的 一 种 方法 。 在 过 去 几 十 年 的 发 展 中 ， 它 大 量 借 鉴 
了 我 们 关于 人 脑 、 统 计 学 和 应 用 数学 的 知识 。 近 年 来 ， 得 益 于 更 强大 的 计算 机 、 更 
大 的 数据 集 和 能 够 训练 更 深 网 络 的 技术 ， 深 度 学 习 的 普及 性 和 实用 性 都 有 了 极 大 的 
发 展 。 未 来 几 年 充满 了 进一步 提高 深度 学 习 并 将 它 带 到 新 领域 的 挑战 和 机 遇 。 
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本 书 这 一 部 分 将 介绍 理解 次 度 学 习 所 需 的 基本 数学 概念 。 我 们 从 应 用 数学 的 一 


般 概念 开始 ， 这 能 使 我 们 定义 许多 变量 的 函 数 ， 找 到 这 些 函 数 的 最 高 和 最 低 点 ， 并 
量化 信念 度 。 


接着 ， 我 们 描述 机 器 学 习 的 基本 目标 ， 并 描述 如 何 实现 这 些 目标 。 我 们 需要 指 
定 代表 某 些 信念 的 模型 、 设 计 衡量 这 些 信 念 与 现实 对 应 程度 的 代价 数 以 及 使 用 训 
练 算 法 最 小 化 这 个 代价 函数 。 

这 个 基本 框架 是 广泛 多 样 的 机 咒 学 习 算 法 的 基础 ， 其 中 也 包括 非 深 度 的 机 器 学 
习 方法 。 在 本 书 的 后 续 部 分 ， 我 们 将 在 这 个 框架 下 开发 深度 学 习 算 法 。 
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线性 代数 作为 数学 的 一 个 分 支 , 广泛 应 用 于 科学 和 工程 中 。 然 而 ， 因 为 线性 代数 
主要 是 面向 连续 数学 ， 而 非 离 散 数学 ,所 以 很 多 计算 机 科学 家 很 少 接触 它 。 掌 握 好 线 
性 代数 对 于 理解 和 从 事 机 器 学 习 算 法 相关 工作 是 很 有 必要 的 ， 尤 其 对 于 深度 学 习 算 
法 而 言 。 因 此 ， 在 开始 介绍 深度 学 习 之 前 ， 我 们 集中 探讨 一 些 必 备 的 线性 代数 知识 。 

如 果 你 已 经 很 熟悉 线性 代数 , 那么 可 以 轻松 地 跳 过 本 章 。 如 果 你 已 经 了 解 这 些 概 
念 ， 但 是 需要 一 份 索引 表 来 回顾 一 些 重要 公式 ， 那 么 我 们 推荐 Tjpe Matriz Cookboo 
(Petersen and Pedersen,， 2006)。 如 果 你 没有 接触 过 线性 代数 ， 那 么 本 章 将 告诉 你 本 
书 所 需 的 线性 代数 知识 ， 不 过 我 们 仍然 非常 建议 你 参考 其 他 专门 讲解 线性 代数 的 文 
献 ， 例 如 Shilov (1977)。 最 后 ， 本 章 略 去 了 很 多 重要 但 是 对 于 理解 深度 学 习 非 必需 
的 线性 代数 知识 。 


























2.1 标量、 向 量 、 和 天 阵 和 张 量 


学 习 线性 代数 ， 会 涉及 以 下 几 类 数学 概念 : 








。 标量 ( scalar )， 一 个 标量 就 是 一 个 单独 的 数 ， 它 不 同 于 线性 代数 中 研究 的 其 他 
大 部 分 对 象 ( 通常 是 多 个 数 的 数组 ) 我 们 用 斜体 表示 标量 。 标 量 通常 被 赋予 小 
写 的 变量 名 称 。 当 我 们 介绍 标量 时 ， 会 明确 它们 是 哪 种 类 型 的 数 。 比 如 ， 在 定 
义 实数 标量 时 ， 我 们 可 能 会 说 “ 令 se 及 表示 一 条 线 的 斜率 ”; 在 定义 自然 数 标 
量 时 ， 我 们 可 能 会 说 “ 令 we N 表示 元 素 的 数目 ”。 

。 向 量 ( vector ): 一 个 向 量 是 一 列 数 。 这 些 数 是 有 序 排列 的 。 通 过 次 序 中 的 索 
引 ， 我 们 可 以 确定 每 个 单独 的 数 。 通 常 我 们 赋予 向 量 粗 体 的 小 写 变量 名 称 ， 比 
如 zx。 向 量 中 的 元 素 可 以 通过 带 脚 标的 斜体 表示 。 向 量 z 的 第 一 个 元 素 是 习 ， 
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第 二 个 元 素 是 思 2， 等 等 。 我 们 也 会 注 明 存 储 在 向 量 中 的 元 素 是 什么 类 型 的 。 如 
果 每 个 元 素 都 属于 玉 ， 并 且 该 向 量 有 ”个 元 素 ， 那 么 该 向 量 属于 实数 集 陈 的 
怀 次 和 贡 卡尔 乘积 构成 的 集合 ， 记 为 玉 "。 当 需要 明确 表示 向 量 中 的 元 素 时 ， 我 们 
会 将 元 素 排列 成 一 个 方 括号 包围 的 纵 列 : 


加 


2 








4 一 








壤 
我 们 可 以 把 向 量 看 作 空 间 中 的 点 ， 每 个 元 素 是 不 同 坐 标 轴 上 的 坐标 。 

有 时 我 们 需要 索引 向 量 中 的 一 些 元 素 。 在 这 种 情况 下 ， 我 们 定义 一 个 包含 这 些 
元 素 索 引 的 集合 ， 然 后 将 该 集合 写 在 脚 标 处 。 比 如 ,指定 立 ，za 和 xz ,我 们 定 
义 集 合 5 = {1L,3,6}， 然 后 写作 zs。 我 们 用 符号 一 表示 集合 的 补 集中 的 索引 。 
比如 zi1 表示 z 中 除 阅 外 的 所 有 元 素 ，z_s 表示 z 中 除 和 ，za，x6 外 所 有 元 
素 构成 的 向 量 。 


和 矩阵 (matrix ): 抢 阵 是 一 个 二 维 数 组 ， 其 中 的 每 一 个 元 素 被 两 个 索引 ( 而 非 
一 个 ) 所 确定 。 我 们 通常 会 赋予 矩阵 粗 体 的 大 写 变 量 名 称 ， 比 如 4。 如 果 一 个 
实数 矩阵 高 度 为 由， 宽度 为 避 ， 那 么 我 们 说 4 e 了 mx" 了。 我 们 在 表示 和 抢 阵 中 的 
元 素 时 ， 通 常 以 不 加 粗 的 斜体 形式 使 用 其 名 称 ， 索 引用 逗号 间隔 。 比 如 ，4i1 
表示 4 左上 的 元 素 ，4mw 表示 4 右 下 的 元 素 。 我 们 通过 用 “:” 表 示 水 平 坐 
标 ， 以 表示 垂直 坐标 ; 中 的 所 有 元 素 。 比 如 ，4,; : 表示 4 中 垂直 坐标 ; 上 的 一 
横 排 元 素 。 这 也 被 称 为 4 的 第 ; 行 (row )。 同 样 地 ，4:; 表示 4 的 第 ; 列 
(column )。 当 我 们 需要 明确 表示 和 抢 阵 中 的 元 素 时 ， 我 们 将 它们 写 在 用 方 括号 括 
起 来 的 数组 中 : 











411 412 
421 422 
有 时 我 们 需要 矩阵 值 表达 式 的 索引 ， 而 不 是 单个 元 素 。 在 这 种 情况 下 ， 我 们 在 
表达 式 后 面 接 下 标 ， 但 不 必 将 矩阵 的 变量 名 称 小 写 化 。 比 如 ，j(4); 表示 函数 
了 作用 在 4 上 输出 的 矩阵 的 第 ; 行 第 7 列 元 素 。 


张 量 (tensor ): 在 某 些 情况 下 ， 我 们 会 讨论 坐标 超过 两 维 的 数组 。 一 般 地 ， 一 
个 数组 中 的 元 素 分 布 在 知 干 维 坐标 的 规则 网 格 中 ， 我 们 称 之 为 张 量 。 我 们 使 用 
字体 A 来 表示 张 量 “A7”。 张 量 人 中 坐标 为 (2 天) 的 元 素 记 作 Ai jiko 


(2 
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转 置 (transpose ) 是 矩阵 的 重要 操作 之 一 。 德 阵 的 转 置 是 以 对 角 线 为 轴 的 镜像 ， 
这 条 从 左上 角 到 右 下 角 的 对 角 线 被 称 为 主 对 角 线 ( main diagonal )。 图 2.1 显示 了 这 
个 操作 。 我 们 将 矩阵 4 的 转 置 表示 为 4 ， 定 义 如 下 


(4 = 4 (2.3) 





向 量 可 以 看 作 只 有 一 列 的 矩阵。 对 应 地 ， 向 量 的 转 置 可 以 看 作 是 只 有 一 行 的 矩 
阵 。 有 时 ， 我 们 通过 将 向 量 元 素 作 为 行 矩 阵 写 在 文本 行 中 ， 然 后 使 用 转 置 操作 将 其 
变 为 标准 的 列 向 量 ， 来 定义 一 个 向 量 ， 比 如 zz = [, ,za] 

标量 可 以 看 作 是 只 有 一 个 元 素 的 和 矩阵。 因此， 标量 的 转 置 等 于 它 本 身 ，a= 0 。 








= 411 421 4351 
412 422 432 





图 2.1: 和 抢 阵 的 转 置 可 以 看 成 以 主 对 角 线 为 轴 的 一 个 镜像 。 























只 要 矩阵 的 形状 一 样 ， 我 们 可 以 把 两 个 矩阵 相 加 。 两 个 矩阵 相 加 是 指 对 应 位 置 
的 元 素 相 加 ， 比 如 C= 4 十 ， 其 中 Cj = 4; 十 盏 ) 

标量 和 矩阵 相 乘 ， 或 是 和 和 抑 阵 相 加 时 ， 我 们 只 需 将 其 与 矩阵 的 每 个 元 素 相 乘 或 
相 加 ， 比 如 万 =a:+c， 其 中 记 ) =0 .Bi 二 co 

在 深度 学 习 中 ， 我 们 也 使 用 一 些 不 那么 向 规 的 符号 。 我 们 人 允许 和 矩阵 和 向 量 相 
加 ， 产 生 另 一 个 矩阵 : C= 4 十 b， 其 中 Cj 一.4i 和 7 十 态 。 换言之 ， 回 量 和 和 矩阵 
4 的 每 一 行 相 加 。 这 个 简写 方法 使 我 们 无 需 在 加 法 操作 前 定义 一 个 将 向 量 " 复制 
到 每 一 行 而 生成 的 矩阵 。 这 种 隐 式 地 复制 向 量 上 到 很 多 位 置 的 方式 ， 被 称 为 广播 
( broadcasting )。 




















2.2 ”矩阵 和 向 量 相 乘 


和 抢 阵 乘法 是 矩阵 运算 中 最 重要 的 操作 之 一 。 两 个 矩阵 4 和 吾 的 矩阵 乘积 
(matrix product ) 是 第 三 个 矩阵 C。 为 了 使 乘法 定义 良好 , 和 矩阵 4 的 列 数 必 须 和 和 拢 
阵 万 的 行 数 相等 。 如 果 矩 阵 4 的 形状 是 只 xm， 和 阵 殖 的 形状 是 由 xp， 那 么 矩阵 
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C 的 形状 是 mmx pe 我 们 可 以 通过 将 两 个 或 多 个 矩阵 并 列 放 置 以 书写 矩阵 乘法 ,例如 


C= 4 (2.4) 
具体 地 ， 该 乘法 操作 定义 为 


( 肥 汪 >》 4ikB (2.5) 
开 


需要 注意 的 是 ， 两 个 矩阵 的 标准 乘积 不 是 指 两 个 矩阵 中 对 应 元 素 的 乘积 。 不 过 ， 
那样 的 珑 阵 操 作 确 实 是 存在 的 ， 被 称 为 元 素 对 应 乘积 (element-wise product ) 或 
者 Hadamard 乘积 (Hadamard product )， 记 为 4@ 万 。 

两 个 相同 维 数 的 向 量 z 和 yy 的 点 积 (dot product ) 可 看 作 是 怎 阵 乘积 zy。 我 
们 可 以 把 矩阵 乘积 C = 4 中 计算 Ci 的 步骤 看 作 是 4 的 第 了 行 和 吾 的 第 7 了 列 之 
闻 的 点 积 。 

抢 阵 乘积 运算 有 许多 有 用 的 性 质 ， 从 而 使 矩 阵 的 数学 分 析 更 加 方便 。 比 如 ， 和 珑 
阵 乘积 服从 分 配 律 : 





4( 刀 +OC)=4+4C. (2.6) 


和 抢 阵 乘积 也 服从 结合 律 : 
4(BC) = (4B)C. (人 大 


不 同 于 标量 乘积 , 矩阵 乘积 并 不 满足 交换 律 ( 4= 4 的 情况 并 非 总 是 满足 )。 
然而 ， 两 个 向 量 的 点 积 (dot product ) 满足 交换 律 : 


ZI13 一 37. (2.8) 
和 矩阵 乘积 的 转 置 有 着 简单 的 形式 : 


(4BD)7 = 了 4 . (2.9) 











利用 两 个 向 量 点 积 的 结果 是 标量 ， 标 量 转 置 是 自身 的 事实 ， 我 们 可 以 证 明 式 (2.8) : 


Z1 4 一 (zT 切 ” 一 2 7z. (2.10) 








由 于 本 书 的 重点 不 是 线性 代数 ， 我 们 并 不 试图 展示 矩阵 乘积 的 所 有 重要 性 质 ， 
但 读 考 应 该 知道 矩阵 乘积 还 有 很 多 有 用 的 性 质 。 
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现在 我 们 已 经 知道 了 足够 多 的 线性 代数 符号 ， 可 以 表达 下 列 线性 方程 组 : 











4z 一 D (2.11) 





其 中 4 e 了 mxn 是 一 个 已 知 矩 阵 ，p e 月 m 是 一 个 已 知 向 量 ，z e 陈 ”” 是 一 个 我 们 要 
求解 的 未 知 向 量 。 向 量 z 的 每 一 个 元 素 乙 都 是 未 知 的 。 和 珑 阵 4 的 每 一 行 和 忆 中 对 
应 的 元 素 构成 一 个 约束 。 我 们 可 以 把 式 (2.11) 重 写 为 














41 :7z 一 7 (2.12) 
442 :7 一 D2 (2.13) 
(2.14) 
4 一 bm (2.15) 
或 者 ， 更 明确 地 ， 写 作 
41171 机 后 41272 和 41pZn 一 (2.16) 
4a21721 本 42272 人 4 mnZn 一 D2 (2.17) 
(2.18) 
ml171 十 4 272 十 …， 进击 2 一 D (2.19) 


和 矩阵 向 量 乘积 符号 为 这 种 形式 的 方程 提供 了 更 紧凑 的 表示 。 


2.3 ”单位 矩阵 和 逆 矩 阵 


线性 代数 提供 了 被 称 为 矩阵 逆 (matrix inversion ) 的 强大 工具 。 对 于 大 多 数 矩 
阵 4， 我 们 都 能 通过 和 阵 道 解析 地 求解 式 (2.11) 。 

为 了 描述 矩阵 逆 ， 我 们 首先 需要 定义 单位 矩阵 ( identity matrix ) 的 概念 。 任 意 
向 量 和 单位 矩阵 相 乘 ， 都 不 会 改变 。 我 们 将 保持 风 维 向 量 不 变 的 单位 矩阵 记 作 五 。 
形式 上 ， 五 E 陈 "x"， 











VZ E 限 "”， 帮 一 2 (2.20) 


单位 矩阵 的 结构 很 简单 : 所 有 沿 主 对 角 线 的 元 素 都 是 1， 而 所 有 其 他 位 置 的 元 素 都 是 
0。 如 图 2.2 所 示 。 
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己 博 
车 已 
请 书 己 


图 2.2: 单位 矩阵 的 一 个 样 例 : 这 是 五 。 








抢 阵 4 的 和 矩阵 逆 (matrix inversion ) 记 作 4- ， 其 定义 的 矩阵 满足 如 下 条 件 


4 4= 厂 . (2.21) 


现在 我 们 可 以 通过 以 下 步骤 求解 式 (2.11) : 


4z 一 已 (2.22) 

4 4z 一 4 10 (2.23) 
思 z 一 4 0 (2.24) 
2 一 4 一 0. (2.25) 





当然 ， 这 取决 于 我 们 能 否 找 到 一 个 逆 矩 阵 4 一 。 在 接 下 来 的 章节 中 ， 我 们 会 讨 
论 逆 矩阵 4 存在 的 条 件 。 

当 逆 矩阵 4 存在 时 ， 有 几 种 不 同 的 算法 都 能 找到 它 的 闭 解 形 式 。 理 论 上 ， 相 
同 的 逆 矩 阵 可 用 于 多 次 求解 不 同 向 量 的 方程 。 然 而 ， 逆 矩阵 4 主要 是 作为 理论 
工具 使 用 的 ， 并 不 会 在 大 多 数 软件 应 用 程序 中 实际 使 用 。 这 是 因为 道 矩 阵 4 … 在 数 
字 计 算 机 上 只 能 表现 出 有 限 的 精度 ， 有 效 使 用 向 量 5 的 算法 通常 可 以 得 到 更 精确 的 


Yo 





2.4 线性 相关 和 生成 子 空 间 


如 果 逆 矩阵 4 存在 ， 那 么 式 (2.11) 肯定 对 于 每 一 个 向 量 加 恰好 存在 一 个 解 。 
但 是 ， 对 于 方程 组 而 言 ， 对 于 向 量 ! 的 某 些 值 ， 有 可 能 不 存在 解 ， 或 者 存在 无 限 多 
个 解 。 存 在 多 于 一 个 解 但 是 少 于 无 限 多 个 解 的 情况 是 不 可 能 发 生 的 ; 因为 如 果 z 和 
2 都 是 某 方程 组 的 解 ， 则 











2 一 QZ 十 (1 一 Q)V (2.26) 
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AL 


其 中 a 取 任 意 实 数 ) 也 是 该 方程 组 的 解 。 

为 了 分 析 方 程 有 多 少 个 解 ， 我 们 可 以 将 4 的 列 向 量 看 作 从 原点 (origin ) ( 元 素 
都 是 零 的 向 量 ) 出 发 的 不 同方 向 ， 确 定 有 多 少 种 方法 可 以 到 达 向 量 b。 在 这 个 观点 
下 ,向量 = 中 的 每 个 元 素 表 示 我 们 应 该 沿 着 这 些 方向 走 多 远 ， 即 表示 我 们 需要 治 
着 第 个 向 量 的 方向 走 多 远 : 
4z= >》 Zi4. (2.27) 


一 般 而 言 ， 这 种 操作 被 称 为 线性 组 合 (linear combination )。 形 式 上 ， 一 组 向 量 的 线 
性 组 合 ， 是 指 每 个 向 量 乘 以 对 应 标量 系数 之 后 的 和 ， 即 : 


>》 cao (2.28) 














一 组 向 量 的 生成 子 空 间 ( span ) 是 原始 向 量 线性 组 合 后 所 能 抵达 的 点 的 集合 。 

确定 4z = 了 是 和 否 有 解 相当 于 确定 向 量 疙 是否 在 4 列 辐 量 的 生成 子 空间 中 。 这 
个 特殊 的 生成 子 空间 被 称 为 4 的 列 空间 ( column space ) 或 者 4 的 值 域 (range )。 

为 了 使 方程 4z = ! 对 于 任意 向 量 pe 陈 ” 都 存在 解 ， 我 们 要 求 4 的 列 空 间 构 
成 整个 及 m"。 如 果 月 m 中 的 某 个 点 不 在 4 的 列 空间 中 ,那么 该 点 对 应 的 ! 会 使 得 
该 方程 没有 解 。 和 天 阵 4 的 列 空间 是 整个 及 " 的 要 求 ， 意 味 着 4 至 少 有 和 mm 列 ， 即 
刀 .过 mm。 否 则 ，4 列 空 间 的 维 数 会 小 于 mm。 例 如 ,假设 4 是 一 个 3 x 2 的 和 矩阵 。 目 
标 名 是 3 维 的 , 但 是 z 只 有 2 维 。 所 以 无 论 如 何 修改 z 的 值 ， 也 只 能 描绘 出 及? 空 
间 中 的 二 维 平面 。 当 且 仅 当 向 量 "在 该 二 维 平面 中 时 ， 该 方程 有 解 。 

不 等 式 即 > mm 仅 是 方程 对 每 一 点 都 有 解 的 必要 条 件 。 这 不 是 一 个 充分 条 件 ， 
为 有 些 列 向 量 可 能 是 元 余 的 。 假 设 有 一 个 展 22 中 的 矩阵 ， 它 的 两 个 列 向 量 是 相同 
的 。 那 么 它 的 列 空间 和 它 的 一 个 列 向 量 作 为 矩阵 的 列 空间 是 一 样 的 。 换 言 之 ， 虽 然 
该 矩阵 有 2 列 ， 但 是 它 的 列 空间 仍然 只 是 一 条 线 ， 不 能 涵盖 整个 玉 ? 空间 。 

正式 地 说 ， 这 种 宛 余 被 称 为 线性 相关 (linear dependence )。 如 果 一 组 向 量 中 
的 任意 一 个 向 量 都 不 能 表示 成 其 他 向 量 的 线性 组 合 ， 那 么 这 组 向 量 称 为 线性 无 关 
(Clinearly inpdependent )。 如 果 某 个 向 量 是 一 组 向 量 中 某 些 向 量 的 线性 组 合 ， 那 么 我 
们 将 这 个 向 量 加 入 这 组 向 量 后 不 会 增加 这 组 向 量 的 生成 子 空 间 。 这 意味 着 ， 如 果 一 
个 矩阵 的 列 空 间 涵 盖 整 个 有” ， 那 么 该 矩阵 必须 包含 至 少 一 组 m 个 线性 无 关 的 向 量 。 
这 是 式 (2.11) 对 于 每 一 个 向 量 的 取 值 都 有 解 的 充分 必要 条 件 。 值 得 注意 的 是 ， 这 
个 条 件 是 说 该 向 量 集 恰 好 有 mm 个 线性 无 关 的 列 向 量 ， 而 不 是 至 少 mm 个 。 不 存在 一 
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个 mm 维 向 量 的 集合 具有 多 于 mm 个 彼此 线性 不 相关 的 列 向 量 ， 但 是 一 个 有 多 于 mm 个 
列 向 量 的 和 矩 阵 有 可 能 拥有 不 止 一 个 大 小 为 mm 的 线性 无 关 向 量 集 。 
要 想 使 矩阵 可 逆 ， 我 们 还 需要 保证 式 (2.11) 对 于 每 一 个 值 至 多 有 一 个 解 。 为 
此 ， 我 们 需要 确保 该 矩阵 至 多 有 mm 个 列 向 量 。 和 否则， 该 方程 会 有 不 止 一 个 解 。 
综 上 所 述 ， 这 意味 着 该 矩阵 必须 是 一 个 方 阵 square )， 即 m = 妈 ， 并 且 所 有 列 
向 量 都 是 线性 无 关 的 。 一 个 列 向 量 线性 相关 的 方 阵 被 称 为 奇异 的 〈singular )。 
如 果 和 矩阵 4 不 是 一 个 方 阵 或 者 是 一 个 奇异 的 方 阵 ， 该 方程 仍然 可 能 有 解 。 但 是 
我 们 不 能 使 用 矩阵 逆 去 求解 。 
目前 为 止 ， 我 们 已 经 讨论 了 逆 矩 阵 左 乘 。 我 们 也 可 以 定义 闭 矩 阵 右 乘 : 














44 一 一 工 (2.29) 








对 于 方 阵 而 言 ， 它 的 左 逆 和 右 闭 是 相等 的 。 


2.5 “ 范 数 


有 时 我 们 需要 衡量 一 个 向 量 的 大 小 。 在 机 顺 学 习 中 ,我们 经 常 使 用 被 称 为 范 数 
(norm ) 的 函数 衡量 向 量 大 小 。 形 式 上 ， 荆 范 数 定义 如 下 


zl = [ 站 (2.30) 





其 中 pe 了 ,pp>1。 
范 数 (包括 Z2 范 数 ) 是 将 向 量 映射 到 非 负 值 的 函数 。 直 观 上 来 说 ， 向 量 z 的 
范 数 衡量 从 原点 到 点 z 的 距离 。 更 严格 地 说 ， 范 数 是 满足 下 列 性 质 的 任意 函数 ; 





e jz)=0 人 一 2Z=0 
e。 jz+ 切 < zcz)+jW) (三 角 不 等 式 (triangle inequality ) ) 


eva < 及, jaz) = aa) 


当 p= 2 时 ， 三 范 数 被 称 为 欧 几 里 得 范 数 ( Euclidean norm )。 它 表示 从 原点 
出 发 到 向 量 z 确定 的 点 的 欧 几 里 得 虫 离 。 二 ?2 范 数 在 机 需 学 习 中 出 现 地 十 分 频繁 ， 经 


2.5 范 数 35 


党 简化 表示 为 |zl|， 略 去 了 下 标 2。 平 方 到 范 煞 也 经 常用 来 衡量 向 量 的 大 小 ,可 以 
简单 地 通过 点 积 zTrm 计算 。 

平方 严 范 数 在 数学 和 计算 上 都 比 Z2 范 数 本 身 更 方便 。 例 如 ， 平 方 Ze 范 数 对 
z 中 每 个 元 素 的 导数 只 取决 于 对 应 的 元 素 ,而 Z 范 数 对 每 个 元 素 的 导数 却 和 整个 向 
量 相关 。 但 是 在 很 多 情况 下 ,平方 Z 范 数 也 可 能 不 受 欢迎 ， 因 为 它 在 原点 附近 增长 
得 十 分 缓慢 。 在 某 些 机 器 学 习 应 用 中 ， 区 分 恰好 是 零 的 元 素 和 非 零 但 值 很 小 的 元 素 
是 很 重要 的 。 在 这 些 情 况 下 ， 我 们 转 而 使 用 在 各 个 位 置 斜率 相同 ， 同 时 保持 简单 的 
数学 形式 的 函数 ， 妨 范 数 。 三 范 数 可 以 简化 如 下 : 





ll = > zi (2.31) 


当 机 天 学习 问 题 中 零 和 非 零 元 素 之 间 的 差异 非常 重要 时 ， 通 常会 使 用 万 范 数 。 每 当 
2 中 某 个 元 素 从 0 增加 e， 对 应 的 瑟 : 范 数 也 会 增加 e。 

有 时 候 我 们 会 统计 向 量 中 非 零 元 素 的 个 数 来 衡量 向 量 的 大 小 。 有 些 作者 将 这 种 
函数 称 为 “Z 范 数 ”， 但 是 这 个 术语 在 数学 意义 上 是 不 对 的 。 辐 量 的 非 零 元 素 的 数目 
不 是 范 数 ， 因 为 对 向 量 缩放 a 倍 不 会 改变 该 向 量 非 零 元 素 的 数目 。 因 此 ， 万 范 数 经 
党 作为 表示 非 零 元 素数 目的 替代 函数 。 

另外 一 个 经 常 在 机 器 学 习 中 出 现 的 范 数 是 Ze 范 数 ， 也 被 称 为 最 大 范 数 ( max 
norm )。 这 个 范 数 表示 向 量 中 具有 最 大 幅 值 的 元 素 的 绝对 值 : 


而 














|zll。 = max |zi|. (2.32) 








有 时 候 我 们 可 能 也 希望 衡量 矩阵 的 大 小 。 在 深度 学 习 中 ， 最 常见 的 做 法 是 使 


用 robenius 范 数 ( Erobenius norm )， 
上 4 = /> 4 (2.33) 
2 
其 类 似 于 向 量 的 瑚 范 数 。 


两 个 向 量 的 点 积 (dot product ) 可 以 用 范 数 来 表示 。 有 具体 地 ， 





Z 9 三 |zl>|gllcos8 (2.34) 





其 中 0 表示 z 和 2 之 间 的 夹 角 。 
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2.6 ”特殊 类 型 的 矩阵 和 向 量 


有 些 特殊 类 型 的 抢 阵 和 向量 是 特别 有 用 的 。 

对 角 抑 阵 ( diagonal matrix ) 只 在 主 对 角 线 上 含有 非 零 元 素 ， 其 他 位 置 都 是 零 。 
形式 上 ， 和 拖 阵 刀 是 对 角 和 拖 阵 ， 当 且 仅 当 对 于 所 有 的 守 和 关 7，Dij = 0。 我 们 已 经 看 到 
过 一 个 对 角 和 天 阵 : 单位 矩阵 ， 对 角 元 素 全 部 是 1。 我 们 用 diag(w) 表示 一 个 对 角 元 素 
由 向 量 v 中 元 素 给 定 的 对 角 方 阵 。 对 角 和 阵 受到 关注 的 部 分 原因 是 对 角 珑 阵 的 乘法 
计算 很 高 效 。 计 算 乘 法 diag(wz， 我 们 只 需要 将 z 中 的 每 个 元 素 zi 放大 ww 倍 。 换 
言 之 ，diag(wjz = vO z。 计 算 对 角 方 阵 的 逆 和 矩阵 也 很 高 效 。 对 角 方 阵 的 逆 和 矩阵 存在 ， 
当 且 仅 当 对 角 元 素 都 是 非 零 值 ,在 这 种 情况 下 ，diag(w)-: = diag([1/oa, ,1/onm] )。 
在 很 多 情况 下 ， 我 们 可 以 根据 任意 徐 阵 导出 一 些 通用 的 机 器 学 习 算 法 ; 但 通过 将 一 
些 和 矩阵 限制 为 对 角 德 阵 ， 我 们 可 以 得 到 计算 代价 较 低 的 〈 并 且 简 明 扼 要 的 ) 算法 。 

不 是 所 有 的 对 角 拖 阵 都 是 方 阵 。 长 方形 的 矩阵 也 有 可 能 是 对 角 和 抢 阵 。 非 方 阵 的 
对 角 猎 阵 没 有 逆 抢 阵 ， 但 我 们 仍然 可 以 高 效 地 计算 它们 的 乘法 。 对 于 一 个 长 方形 对 
角 和 阵 万 而 言 ， 乘 法 Da 会 涉及 到 z 中 每 个 元 素 的 缩放 ， 如 果 刀 是 瘦长 型 矩阵 ， 
那么 在 缩放 后 的 末尾 添加 一 些 零 ; 如 果 万 是 胖 宽 型 矩阵 ， 那 么 在 缩放 后 去 掉 最 后 一 
些 元 素 。 


对 称 (symmetric ) 矩阵 是 转 置 和 自己 相等 的 矩阵 : 

















4=47. (2.35) 


当 某 些 不 依赖 参数 顺序 的 双 参 数 函 数 生成 元 素 时 ， 对 称 和 矩阵 经 常会 出 现 。 例 如 ， 如 
果 4 是 一 个 距离 度量 矩阵 ，4,j 表示 点 ;到 点 7 的 距离 , 那么 4,j = 4 记 ， 因 为 距 
离 函数 是 对 称 的 。 


单位 向 量 ( unit vector ) 是 具有 单位 范 数 (unit norm ) 的 向 量 : 


lzl。 = (2.36) 


如 果 zy = 0, 那么 同 量 z 和 向 量 y 互相 正 交 (orthogonal )。 如 果 两 个 向 量 都 
有 非 零 范 数 ， 那 么 这 两 个 向 量 之 间 的 夹 角 是 90 度 。 在 有" 中， 至 多 有 7 个 范 数 非 
零 向 量 互相 正 交 。 如 果 这 些 向 量 不 仅 互 相 正 交 ， 并 且 范 数 都 为 1， 那么 我 们 称 它们 


是 标准 正 交 (orthonormal )。 
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正 交 天 阵 (orthogonal matrix ) 是 指 行 向 量 和 列 向 量 是 分 别 标准 正 交 的 方 阵 : 
4 4=44' = 工 (2.37) 
4 = 4 ， (2.38) 
所 以 正 交 和 抑 阵 受到 关注 是 因为 求 逆 计 算 代 价 小 。 我 们 需要 注意 正 交 和 抑 阵 的 定义 。 违 
反 直 觉 的 是 ， 正 交 和 矩阵 的 行 向 量 不仅 是 正 交 的 ， 还 是 标准 正 交 的 。 对 于 行 向 量 或 列 
向 量 互 相 正 交 但 不 是 标准 正 交 的 矩阵 ， 没 有 对 应 的 专 有 术语 。 





2.7 “特征 分 解 


许多 数学 对 象 可 以 通过 将 它们 分 解 成 多 个 组 成 部 分 或 者 找到 它们 的 一 些 属性 而 
更 好 地 理解 ， 这 些 属 性 是 通用 的 ， 而 不 是 由 我 们 选择 表示 它们 的 方式 产生 的 。 

例如 ， 整 数 可 以 分 解 为 质 因 数 。 我 们 可 以 用 十 进 制 或 二 进 制 等 不 同方 式 表 示 整 
数 12, 但 是 12=2x2x3 永 远 是 对 的 。 从 这 个 表示 中 我 们 可 以 获得 一 些 有 用 的 信 
息 ， 比 如 12 不 能 被 5 整除 ， 或 者 12 的 倍数 可 以 被 3 整除 。 

正如 我 们 可 以 通过 分 解 质 因数 来 发 现 整数 的 一 些 内 在 性 质 ， 我 们 也 可 以 通过 分 
解 矩 阵 来 发 现 矩阵 表示 成 数组 元 素 时 不 明显 的 函数 性 质 。 

特征 分 解 (eigendecomposition ) 是 使 用 最 广 的 矩阵 分 解 之 一 ， 即 我 们 将 矩阵 分 
解 成 一 组 特征 向 量 和 特征 值 。 

方 阵 4 的 特征 向 量 (eigenvector ) 是 指 与 4 相 乘 后 相当 于 对 该 向 量 进行 缩放 
的 非 零 向 量 v: 

















47 = 入 V. (2.39) 
标量 入 被 称 为 这 个 特征 向 量 对 应 的 特征 值 (eigenvalue )。 (类 似 地 ， 我 们 也 可 以 
定义 左 特征 向 量 (left eigenvector ) v 4 = Xu ， 但 是 通常 我 们 更 关注 右 特征 向 量 
(right eigenvector ) )。 

如 果 v" 是 4 的 特征 向 量 ,那么 任何 缩放 后 的 向 量 sv (se 取 ，s 夭 0) 也 是 4 的 
特征 向 量 。 此 外 ，sw 和 ， 有 相同 的 特征 值 。 基 于 这 个 原因 ， 通 浓 我 们 只 考虑 单位 特 
征 向 量 。 

假设 矩阵 4 有 7 个 线性 无 关 的 特征 向 量 {om,. ,wo ， 对 应 着 特征 值 
{X.,Xn}。 我 们 将 特征 向 量 连 接 成 一 个 矩阵 ， 使 得 每 一 列 是 一 个 特征 向 量 : 
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区 = [ou 类似 地 ,我们 也 可 以 将 特征 值 连接 成 一 个 向 量 入 = [At ，,Xn] 。 
因此 4 的 特征 分 解 〈(eigendecomposition ) 可 以 记 作 


4= Yadiag( 和)T-. (2.40) 


我 们 已 经 看 到 了 构建 具有 特定 特征 值 和 特征 向 量 的 和 矩 阵 ， 能 够 使 我 们 在 目标 方 
向 上 延伸 空间 。 然 而 ,我 们 也 常常 希望 将 矩阵 分 解 (decompose ) 成 特征 值 和 特征 向 
量 。 这 样 可 以 帮助 我 们 分 析 和 矩阵 的 特定 性 质 ， 就 像 质 因数 分 解 有 助 于 我 们 理解 整数 。 
不 是 每 一 个 矩阵 都 可 以 分 解 成 特征 值 和 特征 向 量 。 在 某 些 情 况 下 ， 特 征 分 解 存 
在 ， 但 是 会 涉及 复数 而 非 实 数 。 和 幸运 的 是 ， 在 本 书 中 ， 我 们 通常 只 需要 分 解 一 类 有 
简单 分 解 的 和 矩阵。 具体 来 讲 ， 每 个 实 对 称 矩 阵 都 可 以 分 解 成 实 特征 向 量 和 实 特征 值 : 





4=QAQ . (2.41) 





其 中 和 是 4 的 特征 向 量 组 成 的 正 交 和 矩阵 ，A 是 对 角 德 阵 。 特 征 值 Aj; 对 应 的 特征 
向 量 是 矩阵 Q 的 第 列 ， 记 作 Q.;。 因 为 Q 是 正 交 和 矩阵， 我 们 可 以 将 4 看 作 洛 方 
向 vt 延展 X; 倍 的 空间 。 如 图 2.3 所 示 的 例子 。 

虽然 任意 一 个 实 对 称 和 矩阵 4 都 有 特征 分 解 ， 但 是 特征 分 解 可 能 并 不 唯一 。 如 果 
两 个 或 多 个 特征 向 量 拥 有 相同 的 特征 值 ， 那 么 在 由 这 些 特 征 向 量 产生 的 生成 子 空间 
中 ， 任 意 一 组 正 交 后 量 都 是 该 特征 值 对 应 的 特征 向 量 。 因 此 ， 我 们 可 以 等 价 地 从 这 
些 特 征 回 量 中 构成 Q 作为 替代 。 按 照 惯例 ， 我 们 通常 按 降 序 排 列 A 的 元 素 。 在 该 
约定 下 ， 特 征 分 解 唯 一 当 且 仅 当 所 有 的 特征 值 都 是 唯一 的 。 

和 抢 阵 的 特征 分 解 给 了 我 们 很 多 关于 和 矩 阵 的 有 用 信息 。 撼 阵 是 奇异 的 当 且 仅 当 含 
有 有 零 特 征 值 。 实 对 称 和 矩阵 的 特征 分 解 也 可 以 用 于 优化 二 次 方程 fo) = z74z， 其 中 
限制 |zll, = 1。 当 z 等 于 4 的 某 个 特征 向 量 时 ，j 将 返回 对 应 的 特征 值 。 在 限制 条 
件 下 ， 孙 数 太 的 最 大 值 是 最 大 特征 值 ， 最 小 值 是 最 小 特征 值 。 

所 有 特征 值 都 是 正 数 的 矩阵 被 称 为 正定 ( positive definite ); 所 有 特征 值 都 是 非 
负数 的 矩阵 被 称 为 半 正 定 (positive semidefinite )。 同 样 地 ， 所 有 特征 值 都 是 负数 的 
和 拖 阵 被 称 为 负 定 (negative definite ); 所 有 特征 值 都 是 非 正 数 的 矩阵 被 称 为 半 负 定 
(negative semidefinite )。 半 正定 矩阵 受到 关注 是 因为 它们 保证 vz,zT 4z > 0。 此 外 ， 
正定 和 矩阵 还 保证 z74z=0 僵 z=0。 
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了 Effect of eigenvectors and eigenvalues 








Before multiplication 


After multiplication 
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图 2.3: 特征 向 量 和 特征 值 的 作用 效果 。 特 征 向 量 和 特征 值 的 作用 效果 的 一 个 实例 。 在 这 里 ， 移 阵 





























4 有 两 个 标准 正 交 的 特征 向 量 ， 对 应 特征 值 为 Xi 的 vt) 以 及 对 应 特征 值 为 Xa 的 w2) 。( 左 ) 我 
们 画 出 了 所 有 的 单位 向 量 we 及 ”的 集合 ， 构 成 一 个 单位 圆 。( 右 ) 我 们 画 出 了 所 有 的 4v 点 的 集 
合 。 通 过 观察 4 拉 伸 单位 圆 的 方式 ， 我 们 可 以 看 到 它 将 w) 方向 的 空间 拉 伸 了 Xi 倍 。 























2.8 “奇异 值 分 解 


在 第 2.7 节 ， 我 们 探讨 了 如 何 将 矩阵 分 解 成 特征 向 量 和 特征 值 。 还 有 另 一 种 分 解 
矩 阵 的 方法 ， 被 称 为 奇异 值 分 解 (singular value decomposition, SVD )， 将 和 矩阵 分 
解 为 奇异 向 量 (singular vector ) 和 奇异 值 (singular value )。 通 过 奇异 值 分 解 ， 我 
们 会 得 到 一 些 与 特征 分 解 相 同类 型 的 信息 。 然 而 ， 奇 异 值 分 解 有 更 广泛 的 应 用 。 
个 实数 矩阵 都 有 一 个 奇异 值 分 解 ， 但 不 一 定 都 有 特征 分 解 。 例 如 ， 非 方 阵 的 抢 阵 没 
有 特征 分 解 ， 这 时 我 们 只 能 使 用 奇异 值 分 解 。 

回想 一 下 ， 我 们 使 用 特征 分 解 去 分 析 和 抢 阵 4 时 ， 得 到 特征 向 量 构成 的 矩阵 六 
和 特征 值 构成 的 向 量 入 ， 我们 可 以 重新 将 4 写作 





4= Vadiag( 和)T-. (2.42) 
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奇异 值 分 解 是 类 似 的 ， 只 不 过 这 回 我 们 将 矩阵 4 分 解 成 三 个 矩阵 的 乘积 : 


4= TDT. (2.43) 


假设 4 是 一 个 和 m xz 的 矩阵 , 那么 巡 是 一 个 吧 x7m 的 矩阵 ,万 是 一 个 内 xm 
的 矩阵 ， 科 是 一 个 ”xm 和 矩阵 。 

这 些 和 矩阵 中 的 每 一 个 经 定义 后 都 拥有 特殊 的 结构 。 殖 阵 芝 和 都 定义 为 正 交 
和 抢 阵 ， 而 抢 阵 九 定义 为 对 角 抢 阵 。 注 意 ， 和 天 阵 万 不 一 定 是 方 阵 。 

对 角 和 矩阵 刀 对 角 线 上 的 元 素 被 称 为 矩阵 4 的 奇异 值 (singular value )。 和 矩阵 
Z 的 列 向 量 被 称 为 左 奇异 向 量 (left singular vector )， 和 矩阵 六 的 列 向 量 被 称 右 奇 异 
向 量 (right singular vector )。 

事实 上 ， 我 们 可 以 用 与 4 相关 的 特征 分 解 去 解释 4 的 奇异 值 分 解 。4 的 左 奇 
异 向 量 (left singular vector ) 是 44 "的 特征 向 量 。4 的 右 奇异 向 量 (right singular 
vector ) 是 4 4 的 特征 向 量 。4 的 非 零 奇异 值 是 4 4 特征 值 的 平方 根 ， 同 时 也 是 
44， 特征 值 的 平方 根 。 

SVD 最 有 用 的 一 个 性 质 可 能 是 拓展 矩阵 求 逆 到 非 方 矩阵 上 。 我 们 将 在 下 一 节 中 
探讨 。 


2.9 “Moore-Penrose 伪 逆 





对 于 非 方 矩 阵 而 言 ， 其 闭 矩 阵 没 有 定义 。 假 设 在 下 面 的 问题 中 ， 我 们 希望 通过 
和 矩阵 4 的 左 逆 吾 来 求解 线性 方程 ， 





4z=yY (2.44) 
等 式 两 边 左 乘 左 逆 妃 后 ， 我 们 得 到 
Z 一 也 V/. (2.45) 


取决 于 问题 的 形式 ， 我 们 可 能 无 法 设计 一 个 唯一 的 映射 将 4 映射 到 五。 
如 果 和 矩阵 4 的 行 数 大 于 列 数 ， 那 么 上 述 方程 可 能 没有 解 。 如 果 和 矩阵 4 的 行 数 
小 于 列 数 ， 那 么 上 述 矩 阵 可 能 有 多 个 解 。 


2.10 迹 运算 4 


Moore-Penrose 伪 疗 (Moore-Penrose pseudoinverse ) 使 我 们 在 这 类 问题 上 
取得 了 一 定 的 进展 。 和 阵 4 的 伪 首 定义 为 : 


4+ 一 im(4 4 +aD-4 7 . (2.46) 
计算 伪 逆 的 实际 算法 没有 基于 这 个 定义 ， 而 是 使 用 下 面 的 公式 : 
4+ = TD+I (2.47) 
其 中 ,天 阵 D,， 刀 和 下 是 矩阵 4 奇异 值 分 解 后 得 到 的 矩阵 。 对 角 和 矩阵 九 的 伪 逆 
刀 ” 是 其 非 零 元 素 取 倒数 之 后 再 转 置 得 到 的 。 
当 和 矩阵 4 的 列 数 多 于 行 数 时 ， 使 用 伪 逆 求解 线性 方程 是 众多 可 能 解法 中 的 一 
种 。 特 别 地 ，z = 4-y 是 方程 所 有 可 行 解 中 欧 几 里 得 范 数 ‖|z||。 最 小 的 一 个 。 
当 抢 阵 4 的 行 数 多 于 列 数 时 ， 可 能 没有 解 。 在 这 种 情况 下 ， 通 过 伪 逆 得 到 的 z 
使 得 4z 和 y 的 欧 几 里 得 距离 |4z- 名。 最 小 。 























2.10 “人 迹 运 算 
迹 运算 返回 的 是 矩阵 对 角 元 素 的 和 
一 》 4ii- (2.48) 


迹 运算 因为 很 多 原因 而 有 有 用。 者 不 使 用 求 和 符号 ,有些 矩阵 运算 很 难 描述 ， 而 通过 拢 
阵 乘法 和 迹 运 算 符号 可 以 清楚 地 表示 。 例 如 , 迹 运算 提供 了 另 一 种 描述 矩阵 Frobenius 
范 数 的 方式 : 











14ls = VC44T)， (2.49) 


用 迹 运算 表示 表达 式 ， 我 们 可 以 使 用 很 多 有 用 的 等 式 巧妙 地 处 理 表达 式 。 例 如 ， 
迹 运 算 在 转 置 运算 下 是 不 变 的 : 


Tr(4) = 下 (4 1) (2.50) 


多 个 矩阵 相 乘 得 到 的 方 阵 的 迹 ， 和 将 这 些 和 矩阵 中 的 最 后 一 个 挪 到 最 前 面 之 后 相 
乘 的 迹 是 相同 的 。 当 然 ， 我 们 需要 考虑 挪动 之 后 和 矩阵 乘积 依然 定义 良好 : 


T(4BC = 让 (C4B) = 立 (BC4)， (2.51) 
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或 者 更 一 般 地 ， 


也 也 一 工 
亚 ( 上 及 人 三亚 及 天 入 (2.52) 
3 多 


即使 循环 置换 后 和 矩阵 乘积 得 到 的 矩阵 形状 变 了 ， 迹 运算 的 结果 依然 不 变 。 例 如 ， 假 
设 徐 阵 4 e 了 mx 了 ， 和 失 阵 e 有 "xm ， 我 们 可 以 得 到 
TI(4D) =T 工 (DB4) (2.53) 
尽管 4 刀 ERmxm 和 忆 4eE 了 "xn。 
另 一 个 有 用 的 事实 是 标量 在 迹 运 算 后 仍然 是 它 自 己 : a = (ao)。 


2.11 行列 式 


行列 式 ， 记 作 det(4)， 是 一 个 将 方 阵 4 映射 到 实数 的 天 数 。 行 列 式 等 于 和 矩 阵 特 
征 值 的 乘积 。 行 列 式 的 绝对 值 可 以 用 来 衡量 矩阵 参与 矩阵 乘法 后 空间 扩大 或 者 缩小 
了 多 少 。 如 果 行 列 式 是 0, 那么 空间 至 少 沿 着 某 一 维 完全 收缩 了 , 使 其 失去 了 所 有 的 
体积 。 如 果 行 列 式 是 1， 那 么 这 个 转换 保持 空间 体积 不 变 。 








2.12 ”实例 : 主 成 分 分 析 


主 成 分 分 析 ( principal components analysis, PCA ) 是 一 个 简单 的 机 器 学 习 算 
法 ， 可 以 通过 基础 的 线性 代数 知识 推导 。 

假设 在 及" 空间 中 我 们 有 mm 个 点 {z ,zto9}+， 我 们 希望 对 这 些 点 进行 有 损 
压缩 。 有 损 压 缩 表 示 我 们 使 用 更 少 的 内 存 ， 但 损失 一 些 精 度 去 存储 这 些 点 。 我 们 和 希 
望 损失 的 精度 尽 可 能 少 。 

一 种 编码 这 些 点 的 方式 是 用 低 维 表示 。 对 于 每 个 点 zt <e 了"， 会 有 一 个 对 应 的 
编码 向 量 ct < 及 :。 如 果 ! 比 妈 小 ,那么 我 们 便 使 用 了 更 少 的 内 存 来 存储 原来 的 数 
据 。 我 们 希望 找到 一 个 编码 丽 数 ， 根 据 输 入 返回 编码 ，j(z) = c; 我 们 也 和 希望 找到 一 
个 解码 函数 ， 给 定编 码 重 构 输 入 ，zs 9(F(m))。 

PCA 由 我 们 选择 的 解码 函数 而 定 。 有 具体 地 ， 为 了 简化 解码 器 ， 我 们 使 用 抢 阵 乘 
法 将 编码 映射 回 及 "， 即 g(c) = De， 其 中 D e 及" 是 定义 解码 的 和 矩 阵 。 
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目前 为 止 所 描述 的 问题 ， 可 能 会 有 多 个 解 。 因 为 如 果 我 们 按 比例 地 缩小 所 有 点 
对 应 的 编码 向 量 ce， 那 么 我 们 只 需 按 比例 放大 刀 ,;,， 即 可 保持 结果 不 变 。 为 了 使 问 
题 有 唯一 解 ， 我 们 限制 妈 中 所 有 列 向 量 都 有 单位 范 数 。 

计算 这 个 解码 需 的 最 优 编码 可 能 是 一 个 困难 的 问题 。 为 了 使 编码 问题 简单 一 些 ， 
PCA 限制 九 的 列 向 量 彼此 正 交 注意， 除非 ! = 双 ， 和 否则 严格 意义 上 刀 不 是 一 个 
正 交 和 矩阵) 

为 了 将 这 个 基本 想法 变 为 我 们 能 够 实现 的 算法 ， 首 先 我 们 需要 明确 如 何 根据 每 
一 个 输入 z 得 到 一 个 最 优 编码 c。 一 种 方法 是 最 小 化 原始 输入 向 量 > 和 重 构 向 量 
9(c") 之 间 的 距离 。 我 们 使 用 范 数 来 衡量 它们 之 间 的 距离 。 在 PCA 算法 中 ,我 们 使 
用 怒 范 数 : 














c=argminllz 一 9g(c)||。. (2.54) 

我 们 可 以 用 平方 到 范 数 替 代 三 范 数 ， 因 为 两 者 在 相同 的 值 c 上 取得 最 小 值 。 
这 是 因为 72 范 数 是 非 负 的 ， 并 且 平 方 运算 在 非 负 值 上 是 单调 递增 的 。 

c 一 argmin|z 一 g(c)||> . (2.55) 


该 最 小 化 函数 可 以 简化 成 
(z 一 9(c)) (z 一 9(o)) (2.56) 
( 式 (2.30) 中 瑟 范 数 的 定义 ) 
=ZZ 一 2Ig(c) 一 9(o Zz+9g(c) 9g(o) (2.57) 


(分 配 律 ) 
= zz 一 2zrg(c)+g(cjTg(a) (2.58) 


(因为 标量 g(c)7z 的 转 置 等 于 自己 ) 
因为 第 一 项 zz 不 依赖 于 c， 所 以 我 们 可 以 忽略 它 ， 得 到 如 下 的 优化 目标 : 
cargmn 一 2z'g(ce) 二 9g(c) of(c). (2.59) 
更 进一步 ， 我 们 代入 9(e) 的 定义 : 
ce =argmn--2zIDe+cIDIDe (2.60) 


= argmin 一 2z1De+cIFec (2.61) 
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(和 矩 阵 刀 的 正 交 性 和 单位 范 数 约束 ) 


=argmin 一 2czIDe+erec (2.62) 





我 们 可 以 通过 向 量 微 积分 来 求解 这 个 最 优化 问题 ( 如果 你 不 清楚 怎么 做 ， 请 参 
考 第 4.3 节 ) 


Ve(-2zI Dece+ecrc)=0 (2.63) 
-2D'z+2c=0 (2.64) 
c 一 D'7z. (2.65) 


这 使 得 算法 很 高 效 : 最 优 编码 z 只 需要 一 个 矩阵 -向 量 乘 法 操作 。 为 了 编码 向 量 ， 
我 们 使 用 编码 函数 : 


fm] =Drz (2.66) 

进一步 使 用 矩阵 乘法 ， 我 们 也 可 以 定义 PCA 重 构 操 作 : 
r(z) =9(f(o) = DDriz (2.67) 
接 下 来 ， 我 们 需要 挑选 编码 矩阵 刀 。 要 做 到 这 一 点 ， 我 们 回顾 最 小 化 输入 和 


重 构 之 间 尹 距离 的 这 个 想法 。 因 为 用 相同 的 和 矩阵 刀 对 所 有 点 进行 解码 ， 我 们 不 
能 再 孤立 地 看 竺 每 个 点 。 反 之 ， 我 们 必须 最 小 化 所 有 维 数 和 所 有 点 上 的 误差 矩阵 
的 Frobenius 范 数 ， 





2 
刀 ” = argmin >， (人 一 rz subject to 万 [万 = 万. (2.68) 
也 加 
本 


为 了 推导 用 于 寻求 娘 ” 的 算法 ,我 们 首先 考虑 1 = 1L 的 情况 。 在 这 种 情况 下 ， 刀 
是 一 个 单一 向 量 d。 将 式 (2.67) 代 入 式 (2.68) ， 简 化 万 为 dg， 问题 简化 为 
d 王 0 


,112 
z0 一 dd zl subject to |dl。= 1 (2.69) 
2 











上 述 公式 是 直接 代入 得 到 的 , 但 不 是 文体 表述 最 舒服 的 方式 。 在 上 述 公 式 中 , 我 
们 将 标量 d zt 放 在 向 量 d 的 右边 。 将 该 标量 放 在 左边 的 写法 更 为 传统 。 于 是 我 们 
通常 写作 








2 用 
zG 一 daodl subject to |dl。 = 1 (2.70) 
2 








d 一 argmin 》， 
d 
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或 者 ， 考 虑 到 标量 的 转 置 和 自身 相等 ， 我 们 也 可 以 写作 


d 一 0 | ze 一 zOTddl， subject to ||dll。= 1. (2.71) 


读者 应 该 对 这 些 重 排 写法 慢 慢 熟悉 起 来 。 

此 时 ， 使 用 单一 矩阵 来 重 述 问题 ， 比 将 问题 写成 求 和 形式 更 有 帮助 。 这 有 助 于 
我 们 使 用 更 紧凑 的 符号 。 将 表示 各 点 的 向 量 堆 琶 成 一 个 矩阵 ， 记 为 入 E 限 mx ， 其 中 
大 : = z9 。 原 问题 可 以 重新 表述 为 : 











2 
工 - Xad | subject to dd = |. (2.72) 
开 





d 一 argmin 
d 


暂时 不 考虑 约束 ， 我 们 可 以 将 Frobenius 范 数 简化 成 下 面 的 形式 : 








argnnin 工 二 XdadT| (2.73) 
= argmin ((x 本 Xaar) ( 工 - xad)) (2.74) 

( 式 (2.49) ) 
一 argminTr ( 蕊 和 - XTXddT -ddTXT 和 十 ddTXTXdd ) (2.75) 





E arg IDin Tr(XI 人 一 TXTIXadd ) 一 下 (dd 和 人 +TT(dd XITXdd ) (2.76) 
一 argImin 一 T(XKIXdd ) 一 让 (dd 和 XI)+T(dd XXXddT) (2.77) 
(因为 与 & 无 关 的 项 不 影响 argmin ) 
民 arg min 一 2Tr(XI Xdad ) 十 (dd 和 Xdd  ) (2.78) 
(因为 循环 改变 迹 运算 中 相 乘 矩阵 的 顺序 不 影响 结果 ， 如 式 (2.52) 所 示 ) 
= arg min --2Tr(XTIXdd ) 十 立 (XIXadd dd ) (2.79) 


《再 次 使 用 上 述 性 质 ) 
此 时 ， 我 们 再 来 考虑 约束 条 件 : 





argmin -2Tr( XIXddI) 二 T(XTIXadad' dd ) subject to did=1 (2.80) 
了 
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一 argmin 一 2Tr(XTIXddI) 十 立 (XI Xda ) subject to d d=1 (2.81) 
(因为 约束 条 件 ) 

一 argmin 一 Tr(X XdadT ) subject to dd=1 (2.82) 

一 argmax Tr( XIXdd' ) subject to d d=1 (2.83) 

二 argmaxTr(d 和 太 d) subject to dd = 1 (2.84) 


这 个 优化 问题 可 以 通过 特征 分 解 来 求解 。 具 体 来 讲 ， 最 优 的 4 是 忌 " 最 大 特 
征 值 对 应 的 特征 向 量 。 

以 上 推导 特定 于 7! = 1 的 情况 ， 仅 得 到 了 第 一 个 主 成 分 。 更 一 般 地 ， 当 我 们 希望 
得 到 主 成 分 的 基 时 ， 矩 阵 由 前 ! 个 最 大 的 特征 值 对 应 的 特征 向 量 组 成 。 这 个 结论 
可 以 通过 归纳 法 证 明 ， 我 们 建议 将 此 证 明 作为 练习 。 

线性 代数 是 理解 深度 学 习 所 必须 掌握 的 基础 数学 学 科 之 一 。 另 一 门 在 机 器 学 习 
中 无 处 不 在 的 重要 数学 学 科 是 概率 论 ， 我 们 将 在 下 一 章 探 讨 。 





第 三 章 “” 概率 与 信息 论 


本 章 我 们 讨论 概率 论 和 信息 论 。 

概率 论 是 用 于 表示 不 确定 性 声明 的 数学 框架 。 它 不 仅 提 供 了 量化 不 确定 性 的 方 
法 ， 也 提供 了 用 于 导出 新 的 不 确定 性 声明 (statement ) 的 公理 。 在 人 工 智能 领域 ， 
概率 论 主 要 有 两 种 用 途 。 首 先 ， 概 率 法 则 告诉 我 们 AI 系统 如 何 推理 ， 据 此 我 们 设计 
一 些 算法 来 计算 或 者 估算 由 概率 论 导出 的 表达 式 。 其 次 ， 我 们 可 以 用 概率 和 统计 从 
理论 上 分 析 我 们 提出 的 AI 系统 的 行为 。 

概率 论 是 众多 科学 学 科 和 工程 学 科 的 基本 工具 。 我 们 提供 这 一 章 ， 是 为 了 确保 
那些 背景 偏 软 件 工程 而 较 少 接触 概率 论 的 读者 也 可 以 理解 本 书 的 内 容 。 

概率 论 使 我 们 能 够 提出 不 确定 的 声明 以 及 在 不 确定 性 存在 的 情况 下 进行 推理 ， 
而 信息 论 使 我 们 能 够 量化 概率 分 布 中 的 不 确定 性 总 量 。 

如 果 你 已 经 对 概率 论 和 信息 论 很 熟悉 了 , 那么 除了 第 3.14 节 以 外 的 整 章 内 容 , 你 
都 可 以 跳 过 。 而 在 第 3.14 节 中 ， 我 们 会 介绍 用 来 描述 机 器 学 习 中 结构 化 概率 模型 的 
图 。 即 使 你 对 这 些 主题 没有 任何 的 先 验 知识 ， 本 章 对 于 完成 深度 学 习 的 研究 项 目 来 
说 也 已 经 足够 ， 尽 管 如 此 我 们 还 是 建议 你 能 够 参考 一 些 额 外 的 资料 ， 例 如 Jaynes 
(2003)。 






































3.1 为 什么 要 使 用 概率 ? 


计算 机 科学 的 许多 分 文 处 理 的 实体 大 部 分 都 是 完全 确定 且 必 然 的 。 程 序 员 通常 

可 以 安全 地 假定 CPU 将 完美 地 执行 每 条 机 融 指 令 。 虽 然 硬件 错误 确实 会 发 生 , 但 它 

们 足够 罕见 ， 以 致 于 大 部 分 软件 应 用 在 设计 时 并 不 需要 考虑 这 些 因素 的 影响 。 鉴 于 

许多 计算 机 科学 家 和 软件 工程 师 在 一 个 相对 干净 和 确定 的 环境 中 工作 ， 机 器 学 习 对 
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于 概率 论 的 大 量 使 用 是 很 邻 人 吃惊 的 。 

这 是 因为 机 需 学 习 通 常 必须 处 理 不 确定 量 ， 有 时 也 可 能 需要 处 理 随机 ( 非 确定 性 
的 ) 量 。 不 确定 性 和 随机 性 可 能 来 自 多 个 方面 。 至 少 从 20 世纪 80 年 代 开 始 ， 研 究 
员 就 对 使 用 概率 论 来 量化 不 确定 性 提出 了 令 人 信服 的 论据 。 这 里 给 出 的 许多 论据 
都 是 根据 Pearl (1988) 的 工作 总 结 或 启发 得 到 的 。 

几乎 所 有 的 活动 都 需要 一 些 在 不 确定 性 存在 的 情况 下 进行 推理 的 能 力 。 事 实 上 ， 
除了 那些 被 定义 为 真 的 数学 声明 ， 我 们 很 难 认 定 某 个 命题 是 千 真 万 确 的 或 者 确保 某 
件 事 一 定 会 发 生 。 

不 确定 性 有 三 种 可 能 的 来 源 : 





党 


上 

















1. 被 建 模 系统 内 在 的 随机 性 。 例 如 ， 大 多 数量 子 力学 的 解释 ， 都 将 亚 原子 粒子 的 
动力 学 描述 为 概率 的 。 我 们 还 可 以 创建 一 些 我 们 假设 具有 随机 动态 的 理论 情境 ， 
例如 一 个 假想 的 纸牌 游戏 ， 在 这 个 游戏 中 我 们 假设 纸牌 被 真正 混 洗 成 了 随机 顺 
序 。 


. 不 完全 观测 。 即 使 是 确定 的 系统 ， 当 我 们 不 能 观测 到 所 有 驱动 系统 行为 的 变量 
时 ， 该 系统 也 会 呈现 随机 性 。 例 如 ,在 Monty Hall 问题 中 ,一 个 游戏 节目 的 参 
与 者 被 要 求 在 三 个 门 之 间 选 择 ， 并 且 会 顾 得 放置 在 选中 门 后 的 奖品 。 其 中 两 户 
门 通 向 山羊 ， 第 三 扇 门 通 向 一 辆 汽车 。 选 手 的 每 个 选择 所 导致 的 结果 是 确定 的 ， 
但 是 站 在 选手 的 角度 ， 结 果 是 不 确定 的 。 


MD 








. 不 完全 建 模 。 当 我 们 使 用 一 些 必须 舍弃 某 些 观测 信息 的 模型 时 ， 售 弃 的 信息 会 
导致 模型 的 预测 出 现 不 确定 性 。 例 如 ， 假 设 我 们 制作 了 一 个 机 器 人 ， 它 可 以 准 
确 地 观察 周围 每 一 个 对 象 的 位 置 。 在 对 这 些 对 象 将 来 的 位 置 进行 预测 时 ， 如 果 
机 融 人 和 采用 的 是 离散 化 的 空间 ， 那 么 离散 化 的 方法 将 使 得 机 器 人 无 法 确定 对 象 
们 的 精确 位 置 : 因为 每 个 对 象 都 可 能 处 于 它 被 观测 到 的 离散 单元 的 任何 一 个 角 
沙 。 


CD 








在 很 多 情况 下 ， 使 用 一 些 简 单 而 不 确定 的 规则 要 比 复杂 而 确定 的 规则 更 为 实用 ， 
即使 真正 的 规则 是 确定 的 并 且 我 们 建 模 的 系统 可 以 足够 精确 地 容纳 复杂 的 规则 。 例 
如 ,“ 多 数 鸟 儿 都 会 飞 ” 这 个 简单 的 规则 描述 起 来 很 简单 很 并 且 使 用 广泛 ， 而 正式 的 
规则 一 一 “除了 那些 还 没 学 会 飞翔 的 幼 鸟 ， 因 为 生病 或 是 受伤 而 失去 了 飞翔 能 力 的 
岛 ， 包 括 食 火 岛 (cassowary)、 能 鸟 (ostrichb)、 几 维 (kiwi， 一 种 新 西 兰 产 的 无 副 鸟 ) 
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等 不 会 飞 的 乌 类 ……: 以 外 ， 乌 儿 会 飞 ”， 很 难 应 用 、 维 护 和 沟通 ， 即 使 经 过 这 么 多 的 
努力 ， 这 个 规则 还 是 很 脆弱 而 且 容 易 失 效 。 

尽管 我 们 的 确 需要 一 种 用 以 对 不 确定 性 进行 表示 和 推理 的 方法 ， 但 是 概率 论 并 
不 能 明显 地 提供 我 们 在 人 工 智能 领域 需要 的 所 有 工具 。 概 率 论 最 初 的 发 展 是 为 了 分 
析 事 件 发 生 的 频率 。 我 们 可 以 很 容易 地 看 出 概率 论 ， 对 于 像 在 扑克 牌 游 戏 中 抽出 一 
手 特 定 的 牌 这 种 事件 的 研究 中 ， 是 如 何 使 用 的 。 这 类 事件 往往 是 可 以 重复 的 。 当 我 
们 说 一 个 结果 发 生 的 概率 为 pb， 这 意味 着 如 果 我 们 反复 实验 (例如 ， 抽 取 一 手 牌 ) 无 
限 次 ， 有 pz 的 比例 可 能 会 导致 这 样 的 结果 。 这 种 推理 似乎 并 不 立即 适用 于 那些 不 可 
重复 的 命题 。 如 果 一 个 医生 诊断 了 病人 ， 并 说 该 病人 患 流 感 的 几率 为 40 色 ， 这 意味 
着 非常 不 同 的 事情 一 一 我 们 既 不 能 让 病人 有 无 穷 多 的 副本 ， 也 没有 任何 理由 去 相信 
病人 的 不 同 副本 在 具有 不 同 的 潜在 条 件 下 表现 出 相同 的 症状 。 在 医生 诊断 病人 的 例 
子 中 ， 我 们 用 概率 来 表示 一 种 信任 度 (degree of belief )， 其 中 1 表示 非常 肯定 病人 
患 有 流感 ， 而 0 表示 非常 肯定 病人 没有 流感 。 前 面 那 种 概率 ， 直 接 与 事件 发 生 的 频 
率 相 联系 ， 被 称 为 频率 派 概 率 ( frequentist probability ); 而 后 者 ， 涉 及 到 确定 性 水 
平 ， 被 称 为 贝 叶 斯 概率 ( Bayesian probability )。 

关于 不 确定 性 的 常识 推理 ， 如 果 我 们 已 经 列 出 了 若干 条 我 们 期 望 它 具有 的 性 质 ， 
那么 满足 这 些 性 质 的 唯一 一 种 方法 就 是 将 贝 叶 斯 概率 和 频率 派 概率 视 为 等 同 的 。 例 
如 ， 如 果 我 们 要 在 扑克 牌 游 戏 中 根据 玩家 手 上 的 牌 计算 她 能 够 获胜 的 概率 ， 我 们 使 
用 和 医生 情境 完全 相同 的 公式 ， 就 是 我 们 依据 病人 的 某 些 症状 计算 她 是 否 患 病 的 概 
率 。 为 什么 一 小 组 常识 性 假设 更 含 了 必须 是 相同 的 公理 控制 两 种 概率 ? 更 多 的 细节 
参见 Ramsey (1926)。 

概率 可 以 被 看 作 是 用 于 处 理 不 确定 性 的 逻辑 扩展 。 逻 辑 提 供 了 一 套 形式 化 的 规 
则 , 可 以 在 给 定 某 些 命题 是 真 或 假 的 假设 下 ,判断 另外 一 些 命题 是 真 的 还 是 假 的 。 概 
率 论 提供 了 一 套 形式 化 的 规则 ， 可 以 在 给 定 一 些 命题 的 似 然后 ， 计 算 其 他 命题 为 真 
的 似 然 。 






























































3.2 ”随机 变量 


随机 变量 (random variable ) 是 可 以 随机 地 取 不 同 值 的 变量 。 我 们 通常 用 无 格 
式 字体 (plain typeface) 中 的 小 写字 母 来 表示 随机 变量 本 身 ， 而 用 手写 体 中 的 小 写字 
母 来 表示 随机 变量 能 够 取 到 的 值 。 例 如 ，zi 和 zs 都 是 随机 变量 x 可 能 的 取 值 。 对 
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于 向 量 值 变量 ， 我 们 会 将 随机 变量 写成 x， 它 的 一 个 可 能 取 值 为 rz。 就 其 本 身 而 言 ， 
一 个 随机 变量 只 是 对 可 能 的 状态 的 描述 ; 它 必 须 伴 随 着 一 个 概率 分 布 来 指定 每 个 状 
态 的 可 能 性 。 

随机 变量 可 以 是 离散 的 或 者 连续 的 。 离 散 随机 变量 拥有 有 限 或 者 可 数 无 限 多 的 
状态 。 注 意 这 些 状态 不 一 定 非 要 是 整数 ;它们 也 可 能 只 是 一 些 被 命名 的 状态 而 没有 
数值 。 连 续 随 机 变量 伴随 着 实数 值 。 








3.3 ”概率 分 布 


概率 分 布 ( Probability distribution ) 用 来 描述 随机 变量 或 一 篮 随 机 变量 在 每 一 
个 可 能 取 到 的 状态 的 可 能 性 大 小 。 我 们 描述 概率 分 布 的 方式 取决 于 随机 变量 是 离散 
的 还 是 连续 的 。 











3.3.1 ”离散 型 变量 和 概率 质量 函数 


离散 型 变量 的 概率 分 布 可 以 用 概率 质量 函数 ( probability mass function, PMF ) 
1 来 描述 。 我 们 通常 用 大 写字 母 已 来 表示 概率 质量 困 数 。 通 带 每 一 个 随机 变量 都 会 有 
一 个 不 同 的 概率 质量 冰 数 ， 并 且 读 考 必 须根 据 随机 变量 来 推 灯 所 使 用 的 PMF， 而 不 
是 根据 丽 数 的 名 称 来 推断 ; 例如 ，P(x) 通常 和 P(y) 不 一 样 。 

概率 质量 本 数 将 随机 变量 能 够 取得 的 每 个 状态 映射 到 随机 变量 取得 该 状态 的 概 
率 。Xx=2z 的 概率 用 P(z) 来 表示 ， 概 率 为 1 表示 x= z 是 确定 的 ， 概 率 为 0 表示 
xx 一 2 是 不 可 能 发 生 的 。 有 时 为 了 使 得 PME 的 使 用 不 相互 混淆 ， 我 们 会 明确 写 出 随 
机 变量 的 名 称 : P(x = zZ)。 有 时 我 们 会 先 定义 一 个 随机 变量 ， 然 后 用 ~ 符号 来 说 明 
它 遵 循 的 分 布 : x~ P(x)。 

概率 质量 郴 数 可 以 同时 作用 于 多 个 随机 变量 。 这 种 多 个 变量 的 概率 分 布 被 称 
为 联合 概率 分 布 (joint probability distribution )。P(x = zy = 切 表示 x= 2 和 
y=% 同时 发 生 的 概率 。 我 们 也 可 以 简写 为 P(z,y)。 

如 果 一 个 函数 尸 是 随机 变量 x 的 PMEF ， 必 须 满足 下 面 这 几 个 条 件 : 








。 忆 的 定义 域 必须 是 x 所 有 可 能 状态 的 集合 。 
: 译 者 注 ， 国内 有 些 教材 也 将 它 翻译 成 概率 分 布 律 。 
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evz ex;0<P(z)<1. 不 可 能 发 生 的 事件 概率 为 0， 并 且 不 存在 比 这 概率 更 低 
的 状态 。 类 似 的 ， 能 够 确保 一 定 发 生 的 事件 概率 为 1， 而 且 不 存在 比 这 概率 更 

高 的 状态 。 

> ,-. P(z) = 工 .我 们 把 这 条 性 质 称 之 为 归 一 化 的 (normalized )。 如 果 没 有 这 

条 性 质 ， 当 我 们 计算 很 多 事件 其 中 之 一 发 生 的 概率 时 可 能 会 得 到 大 于 1 的 概 

率 。 











例如 ， 考 虑 一 个 离散 型 随机 变量 x 有 个 不 同 的 状态 。 我 们 可 以 假设 xx 是 均匀 
分 布 (uniform distribution ) 的 (也 就 是 将 它 的 每 个 状态 视 为 等 可 能 的 )， 通 过 将 它 
的 PMEF 设 为 


忆 ( 科 三 0) 三 二 (3.1) 
对 于 所 有 的 ;都 成 立 。 我 们 可 以 看 出 这 满足 上 述 成 为 概率 质量 末 数 的 条 件 。 因 为 开 


是 一 个 正 整 数 ， 所 以 头 是 正 的 。 我 们 也 可 以 看 出 
1 大 
六 2 2 和 生 丽 (3.2) 
因此 分 布 也 满足 归 一 化 条 件 。 








3.3.2 ”连续 型 变量 和 概率 密度 函数 


当 我 们 研究 的 对 象 是 连续 型 随机 变量 时 ， 我 们 用 概率 密度 函数 (probability 
density function, PDF ) 而 不 是 概率 质量 郧 数 来 描述 它 的 概率 分 布 。 如 果 一 个 函数 p 
是 概率 密度 函数 ， 必 须 满足 下 面 这 几 个 条 件 : 

e 0 的 定义 域 必 须 是 x 所 有 可 能 状态 的 集合 。 
eVz ex,p(Z) > 0. 注意 ， 我 们 并 不 要 求 p(z) < 1。 
ep(z)adz = 1 

概率 密度 函数 p(z) 并 没有 直接 对 特定 的 状态 给 出 概率 ， 相 对 的 ， 它 给 出 了 落 在 
面积 为 6z 的 无 限 小 的 区 域内 的 概率 为 p(z)6z。 

我 们 可 以 对 概率 密度 函数 求 积 分 来 获得 点 集 的 真实 概率 质量 。 特 别 地 ，z 落 在 
集合 S 中 的 概率 可 以 通过 p(z) 对 这 个 集合 求 积分 来 得 到 。 在 单 变量 的 例子 中 ，z 落 
在 区 辣 [w, 引 的 概率 是 人 Pajdz。 
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为 了 给 出 一 个 连续 型 随机 变量 的 PDF 的 例子 , 我们 可 以 考虑 实数 区 间 上 的 均匀 
分 布 。 我 们 可 以 使 用 函数 w(z;i ao 让 ， 其 中 ac 和 》 是 区 间 的 端点 且 满 足 > a。 符 号 
“7 表示 “以 什么 为 参数 ”; 我 们 把 z 作为 冰 数 的 自 变 量 ，a 和 作为 定义 前 数 的 参 
数 。 为 了 确保 区 间 外 没有 概率 ， 我 们 对 所 有 的 z 和 [oa 令 wziw 人 =0。 在 [ao 
内 ， 有 wu(ziab) = 天。 我 们 可 以 看 出 任何 一 点 都 非 负 。 另 外 ， 它 的 积分 为 1。 我 们 
通常 用 x ~ UV(a,b 表示 z 在 [a, 吉 上 是 均匀 分 布 的 。 





3.4 边缘 概率 


有 时 候 ， 我 们 知道 了 一 组 变量 的 联合 概率 分 布 ， 但 想 要 了 解 其 中 一 个 子 集 的 概 
率 分 布 。 这 种 定义 在 子 集 上 的 概率 分 布 被 称 为 边缘 概率 分 布 marginal probability 
distribution )。 

例如 ， 假 设 有 离散 型 随机 变量 x 和 y， 并 且 我 们 知道 P(x,y)。 我 们 可 以 依据 下 
面 的 求 和 法 则 (sum rule ) 来 计算 尸 (x): 





总 作 克 区 二 刘 生 次 克 二 克 关 冯 人 : (3.3) 


“边缘 概率 ”的 名 称 来 源 于 手 算 边缘 概率 的 计算 过 程 。 当 已 (x,y) 的 每 个 值 被 写 
在 由 每 行 表示 不 同 的 z 值 ， 每 列表 示 不 同 的 y 值 形 成 的 网 格 中 时 ， 对 网 格 中 的 每 行 
求 和 是 很 自然 的 事情 ， 然 后 将 求 和 的 结果 P(z) 写 在 每 行 右边 的 纸 的 边缘 处 。 

对 于 连续 型 变量 ， 我 们 需要 用 积分 替代 求 和 : 





pa = /oem (3.4) 


3.5 “条 件 概率 


在 很 多 情况 下 ， 我 们 感 兴趣 的 是 某 个 事件 ， 在 给 定 其 他 事件 发 生 时 出 现 的 
概率 。 这 种 概率 叫做 条 件 概 率 。 我 们 将 给 定 x= z,，y =% 发 生 的 条 件 概率 记 为 
Pty=y|x=2z)。 这 个 条 件 概 率 可 以 通过 下 面 的 公式 计算 : 








Py= 思 xx=2) 
已 X=2) 





Pr 一 9| 工 二 2) 一 . 《3.5) 
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条 件 概率 只 在 P(x = z) > 0 时 有 定义 。 我 们 不 能 计算 给 定 在 永远 不 会 发 生 的 事件 上 
的 条 件 概 率 。 

这 里 需要 注意 的 是 ， 不 要 把 条 件 概率 和 计算 当 采 用 某 个 动作 后 会 发 生 什 么 相 混 
消 。 假 定 某 个 人 说 德语 ， 那 么 他 是 德国 人 的 条 件 概率 是 非常 高 的 ， 但 是 如 果 随 机 选 
择 的 一 个 人 会 说 德语 ， 他 的 国籍 不 会 因此 而 改变 。 计 算 一 个 行动 的 后 果 被 称 为 干预 
查询 〈intervention query )。 于 预 查询 属于 因果 模型 (causal modeling ) 的 范畴 ， 我 
们 不 会 在 本 书 中 讨论 。 

















3.6 “条件 概 率 的 链 式 法 则 


任何 多 维 随机 变量 的 联合 概率 分 布 ， 都 可 以 分 解 成 只 有 一 个 变量 的 条 件 概率 相 
乘 的 形式 : 
已 (xx ) 一 P(xGD)IH2 PP(xt | xx6G-D)， (3.6) 


这 个 规则 被 称 为 概率 的 链 式 法 则 (chain rule ) 或 者 乘法 法 则 ( product rule )。 
它 可 以 直接 从 式 (3.5) 条 件 概 率 的 定义 中 得 到 。 例 如 ， 使 用 两 次 定义 可 以 得 到 





Pa,b,c) = Pla|lbc)Pb,c) 
Pbc) = Pbl|cP(c) 
Pa,b,c) = Plalbc)Pb |cP(co). 


3.7 ”独立 性 和 条 件 独立 性 
两 个 随机 变量 x 和 y, 如 果 它 们 的 概率 分 布 可 以 表示 成 两 个 因子 的 乘积 形式 ,并 


且 一 个 因子 只 包含 x 另 一 个 因子 只 包含 yY， 我 们 就 称 这 两 个 随机 变量 是 相互 独立 的 
(independent ): 








VYzZEXyEyDX=2y 三 急 王 DGX=Z)p(y = 切 . (3.7) 


如 果 关 于 x 和 y 的 条 件 概 率 分 布 对 于 z 的 每 一 个 值 都 可 以 写成 乘积 的 形式 ， 
那么 这 两 个 随机 变量 x 和 y 在 给 定 随 机 变量 z 时 是 条 件 独立 的 (conditionally 
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independent )， 








YZEXVEy2E2zDX=Zy7=y|2z=2 四 =DpXK=Z|12=2)D7=y|12z= 力 . 
(3.89) 
我 们 可 以 采用 一 种 简化 形式 来 表示 独立 性 和 条 件 独 立 性 : xLy 表示 x 和 y 相互 
独立 ，xLy|1z 表 示 x 和 y 在 给 定 z 时 条 件 独立 。 








3.8 期望、 方差 和 协 方差 


函数 jz) 关于 某 分 布 P(x) 的 期 望 (expectation ) 或 者 期 望 值 (expected 
value ) 是 指 ， 当 二 由 书 产 生 , 厂 作用 于 z 时 ，jJz) 的 平均 值 。 对 于 离散 型 随 
机 变量 ， 这 可 以 通过 求 和 得 到 : 


PP[f(z)] = > P(z)j(e)， (3.9) 


























[Co = /ooyGodr (G3.10) 


当 概 率 分 布 在 上 下 文中 指明 时 ， 我 们 可 以 只 写 出 期 望 作用 的 随机 变量 的 名 称 来 进行 
简化 ， 例 如 下 [jz)]。 如 果 期 望 作用 的 随机 变量 也 很 明确 ， 我 们 可 以 完全 不 写 脚 标 ， 
就 像 也 LAz)]。 默 认 地 ， 我 们 假设 严 [] 表示 对 方 括号 内 的 所 有 随机 变量 的 值 求 平均 。 
类 似 的 ， 当 没有 此 义 时 ， 我 们 还 可 以 省 略 方 括号 。 

期 望 是 线性 的 ， 例 如 ， 










































































Ex[ajz) + 9g(z)] = ax[j(z)] 十 DB:x[g(z)]， 《3.11) 


其 中 c 和 8 不 依赖 于 z。 
方差 (variance ) 衡量 的 是 当 我 们 对 z 依据 它 的 概率 分 布 进行 采样 时 ， 随 机 变 
量 x 的 函数 值 会 呈现 多 大 的 差异 : 






































Var(foD) = 下 [(f(o) -了 AD (3.12) 


当 方 差 很 小 时 ，jJz) 的 值 形成 的 复 比 较 接 近 它 们 的 期 望 值 。 方 差 的 平方 根 被 称 为 标 
准 差 ( standard deviation )。 
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协 方 差 〈( covariance ) 在 某 种 意义 上 给 出 了 两 个 变量 线性 相关 性 的 强度 以 及 这 些 
变量 的 太 度 : 



































CovUtz),90)) = 三亚 [CAz) 一 下 zz) )9(O) 一 吾 9( 诈 ， (3.13) 














协 方差 的 绝对 值 如 果 很 大 则 意味 着 变量 值 变 化 很 大 并 且 它 们 同时 距离 各 自 的 均值 很 
远 。 如 果 协 方差 是 正 的 ， 那 么 两 个 变量 都 倾向 于 同时 取得 相对 较 大 的 值 。 如 果 协 方 
差 是 负 的 ， 那 么 其 中 一 个 变量 倾向 于 取得 相对 较 大 的 值 的 同时 ， 另 一 个 变量 倾向 于 
取得 相对 较 小 的 值 , 反之 亦 然 。 其 他 的 衡量 指标 如 相关 系数 (correlation ) 将 每 个 变 
量 的 贡献 归 一 化 ， 为 了 只 衡量 变量 的 相关 性 而 不 受 各 个 变量 尺度 大 小 的 影响 。 

协 方差 和 相关 性 是 有 联系 的 ， 但 实际 上 是 不 同 的 概念 。 它 们 是 有 联系 的 ， 因 为 
两 个 变量 如 果 相 互 独立 那么 它们 的 协 方 差 为 零 ， 如 果 两 个 变量 的 协 方差 不 为 零 那 么 
它们 一 定 是 相关 的 。 然 而 ， 独 立 性 又 是 和 协 方差 完全 不 同 的 性 质 。 两 个 变量 如 果 协 
方差 为 零 ， 它 们 之 间 一 定 没有 线性 关系 。 独 立 性 比 零 协 方差 的 要 求 更 强 ， 因 为 独立 
性 还 排除 了 非 线性 的 关系 。 两 个 变量 相互 依赖 但 具有 零 协 方差 是 可 能 的 。 例 如 ， 假 
设 我 们 首先 从 区 间 [--1,1H 上 的 均匀 分 布 中 采样 出 一 个 实数 zx。 然后 我 们 对 一 个 随机 
变量 s 进行 采样 。s 以 这 的 概率 值 为 1， 否则 为 -1。 我 们 可 以 通过 令 y = sz 来 生成 
一 个 随机 变量 y。 显 然 ，z 和 y 不 是 相互 独立 的 ， 因 为 zx 完全 决定 了 y 的 尺度 。 然 
而 ，Cov(z,y) = 0。 

随机 向 量 ze 下 "” 的 协 方差 矩阵 ( covariance matrix ) 是 一 个 见 xz7m 的 和 矩阵， 并 
且 满 足 
































Cov(x)iy = Cov(xi)Xj. (3.14) 
协 方差 矩阵 的 对 角 元 是 方差 : 


Cov(xi,xi) 一 Var(Xi). (3.15) 


3.9 ”常用 概率 分 布 


许多 简单 的 概率 分 布 在 机 器 学 习 的 众多 领域 中 都 是 有 用 的 。 
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3.9.1 Bernoulli 分 布 


Bernoulli 分 布 (Bernoulli distribution ) 是 单个 二 值 随机 变量 的 分 布 。 它 由 单 
个 参数 we [0,1] 控制 ，% 给 出 了 随机 变量 等 于 1 的 概率 。 它 具有 如 下 的 一 些 性 质 : 

















PEx=T = (3.16) 
Px=0)=1-4 (3.17) 
PE = 可 = 如 1- 骨 (3.18) 
Ed 一 贡 (3.19) 
VarsGo = 9 一 由 (3.20) 


3.9.2 Multinoulli 分 布 


Multinoulli 分 布 (multinoulli distribution ) 或 者 范畴 分 布 ( categorical dis- 
tribution ) 是 指 在 具有 丰 个 不 同 状态 的 单个 离散 型 随机 变量 上 的 分 布 ， 其 中 上 开 是 一 
个 有 限 值 。: Multinoulli 分 布 由 向 量 p e [0,3]:! 参数 化 ， 其 中 每 一 个 分 量 mw 表示 
第 ; 个 状态 的 概率 。 最 后 的 第 到 个 状态 的 概率 可 以 通过 1- 1 p 给 出 。 注 意 我 们 必 
须 限 制 1 p < 1。Multinoulli 分 布 经 常用 来 表示 对 象 分 类 的 分 布 ， 所 以 我 们 很 少 假 
设 状态 1 具有 数值 1 之 类 的 。 因 此 , 我 们 通常 不 需要 去 计算 Multinoulli 分 布 的 随机 
变量 的 期 望 和 方差 。 

Bernoulli 分 布 和 Multinoulli 分 布 足够 用 来 描述 在 它们 领域 内 的 任意 分 布 。 它 们 
能 够 描述 这 些 分 布 ， 不 是 因为 它们 特别 强大 ， 而 是 因为 它们 的 领域 很 简单 ; 它们 可 
以 对 那些 ， 能 够 将 所 有 的 状态 进行 枚 举 的 离散 型 随机 变量 进行 建 模 。 当 处 理 的 是 连 
续 型 随机 变量 时 ， 会 有 不 可 数 无 限 多 的 状态 ， 所 以 任何 通过 少量 参数 描述 的 概率 分 
布 都 必须 在 分 布 上 加 以 严格 的 限 佣 

















一 


O 





2“multinoulli” 这 个 术语 是 最 近 被 Gustavo Lacerdo 发 明 、 被 Murphy (2012) 推广 的 。Multinoulli 分 布 是 多 
项 式 分 布 (multinomial distribution ) 的 一 个 特例 。 多 项 式 分 布 是 《0,...， mj}* 中 的 向 量 的 分 布 ， 用 于 表示 当 
对 Multinoulli 分 布 采样 m 次 时 大 个 类 中 的 每 一 个 被 访问 的 次 数 。 很 多 文章 使 用 “多 项 式 分 布 ” 而 实际 上 说 的 
是 Multinoulli 分 布 ， 但 是 他 们 并 没有 说 是 对 m” = 1 的 情况 ， 这 点 需要 注意 。 
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3.9.3 ”高 斯 分 布 


实数 上 最 常用 的 分 布 就 是 正 态 分 布 (normal distribution ) ， 也 称 为 高 斯 分 布 


( Gaussian distribution ): 





| | 
we 四 = 媳 匣 (- 志 ec 人 (21) 


图 3.1 画 出 了 正 态 分 布 的 概率 密度 数 。 


0.40 
0.35 
0.30 Maximum at Z 一 风 
0.25 
0.20 和 二 从 二 CI 


Infection points at 


P(x) 





0.15 
0.10 
0.05 
0.00 
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图 3.1: 正 态 分 布 。 正 态 分 布 N(zi; a2) 呈现 经 典 的 “ 钟 形 曲线 ”的 形状 ， 其 中 中 心 峰 的 z 坐标 
由 1 给 出 ， 峰 的 宽度 受 c 控制 。 在 这 个 示例 中 ， 我 们 展示 的 是 标准 正 态 分 布 (standard normal 
distribution )， 其 中 人 = 0,c=1。 











正 态 分 布 由 两 个 参数 控制 ，wE 下 和 ac e (0,co)。 参 数 六 给 出 了 中 心 峰 值 的 坐 
标 ， 这 也 是 分 布 的 均值 : 眉 ] = /。 分 布 的 标准 差 用 c 表示 ， 方 差 用 o” 表示 。 

当 我 们 要 对 概率 密度 函数 求 值 时 ， 我 们 需要 对 c 平方 并 且 取 倒 数 。 当 我 们 需要 
经 常 对 不 同 参数 下 的 概率 密度 函数 求 值 时 ， 一 种 更 高 效 的 参数 化 分 布 的 方式 是 使 用 
参数 6 e (0, co)， 来 控制 分 布 的 精度 ( precision ) (或 方差 的 倒数 ): 


wonp= om(-3ac-o) (3.22) 


采用 正 态 分 布 在 很 多 应 用 中 都 是 一 个 明智 的 选择 。 当 我 们 由 于 缺乏 关于 某 个 实 
数 上 分 布 的 先 验 知识 而 不 知道 该 选择 怎样 的 形式 时 ， 正 态 分 布 是 默认 的 比较 好 的 选 
择 ， 其 中 有 两 个 原因 。 
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第 一 ， 我 们 想 要 建 模 的 很 多 分 布 的 真实 情况 是 比较 接近 正 态 分 布 的 。 中 心 极 限 
定理 ( central limit theorem ) 说 明 很 多 独立 随机 变量 的 和 近似 服从 正 态 分 布 。 这 意 
味 着 在 实际 中 ， 很 多 复杂 系统 都 可 以 被 成 功 地 建 模 成 正 态 分 布 的 噪声 ， 即 使 系统 可 
以 被 分 解 成 一 些 更 结构 化 的 部 分 。 

第 二 ， 在 具有 相同 方差 的 所 有 可 能 的 概率 分 布 中 ， 正 态 分 布 在 实数 上 具有 最 大 
的 不 确定 性 。 因 此 ， 我 们 可 以 认为 正 态 分 布 是 对 模型 加 入 的 先 验 知识 量 最 少 的 分 布 。 
充分 利用 和 证 明 这 个 想法 需要 更 多 的 数学 工具 ， 我 们 推迟 到 第 19.4.2 节 进 行 讲解 。 

正 态 分 布 可 以 推广 到 陈 "” 空间 ， 这 种 情况 下 被 称 为 多 维 正 态 分 布 (multivariate 
normal distribution )。 它 的 参数 是 一 个 正定 对 称 和 矩阵 马 : 





人 ( 写 几 马 ) = 





1 1 元 Si 
CdaetBj ep 人 ( (2Z 几 ) 于 (2z 一 阿 (3.23) 
参数 A 仍然 表示 分 布 的 均值 ， 只 不 过 现在 是 向 量 值 。 参 数 忆 给 出 了 分 布 的 协 
方差 矩阵 。 和 单 变量 的 情况 类 似 ， 当 我 们 和 希望 对 很 多 不 同 参数 下 的 概率 密度 函数 多 
次 求 值 时 ， 协 方差 矩阵 并 不 是 一 个 很 高 效 的 参数 化 分 布 的 方式 ， 因 为 对 概率 密度 天 
数 求 值 时 需要 对 忆 求 逆 。 我 们 可 以 使 用 一 个 精度 矩阵 ( precision matrix ) B 进行 蔚 
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我 们 常常 把 协 方 差 矩 阵 固 定 成 一 个 对 角 阵 。 一 个 更 简单 的 版 本 是 各 向 同性 
(isotropic ) 高 斯 分 布 ， 它 的 协 方差 矩阵 是 一 个 标量 乘 以 单位 阵 。 











3.9.4 “指数 分 布 和 Laplace 分 布 
在 深度 学 习 中 ， 我 们 经 常会 需要 一 个 在 z = 0 点 处 取得 边界 点 (sharp point) 的 
分 布 。 为 了 实现 这 一 目的 ， 我 们 可 以 使 用 指数 分 布 (exponential distribution ): 
D(Z; 入 ) = 和 1Lz>o exp( 一 和 2). (3.25) 
旨 数 分 布 使 用 指示 冰 数 (indicator function)1z>o 来 使 得 当 z 取 负 值 时 的 概率 为 零 。 
一 个 联系 紧密 的 概率 分 布 是 Laplace 分 布 (Laplace distribution )， 它 人 允许 我 们 
在 任意 一 点 / 处 设置 概率 质量 的 峰值 


1 2 
Laplace(z; 由 TY) 三 2 exp ( 本 “) (3.26) 
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3.9.5 “Dirac 分 布 和 经 验 分 布 


在 一 些 情况 下 ， 我 们 希望 概率 分 布 中 的 所 有 质量 都 集中 在 一 个 点 上 。 这 可 以 通 

过 Dirac delta 函数 (Dirac delta function ) 56(z) 定义 概率 密度 函数 来 实现 : 
D(Z) 三 0 一 及. (3.27) 

Dirac delta 函数 被 定义 成 在 除了 0 以 外 的 所 有 点 的 值 都 为 0， 但 是 条 ， 1。Dirac 
delta 玉 数 不 像 善 通 函 数 一 样 对 z 的 每 一 个 值 都 有 一 个 实数 值 的 输出 ， 它 是 一 种 不 同 
类 型 的 数学 对 象 ， 被 称 为 广义 函数 (generalized function )， 广 义 人 性 
质 定义 的 数学 对 象 。 我 们 可 以 把 Dirac delta 函数 想 成 一 系列 函数 的 极限 点 ， 这 一 系 
列 函 数 把 除 0 以 外 的 所 有 点 的 概率 密度 越 变 越 小 。 

通过 把 z(z) 定义 成 6 函数 左 移 -/ 个 单位 ,我们 得 到 了 一 个 在 zx = 内 处 具有 
无 限 罕 也 无 限 高 的 峰值 的 概率 质量 。 

Dirac 分 布 经 常 作 为 经 验 分 布 (empirical distribution ) 的 一 个 组 成 部 分 出 现 : 





< SS 

。 实 2 z() (3.28) 
经 验 分 布 将 概率 密度 寺 赋 给 mm 个 点 zi ,zt 中 的 每 一 这 些 点 是 给 定 的 
数据 集 或 者 采样 的 集合 。 只 有 在 定 续 型 随机 赤 人 Dirac delta 郴 


数 才 是 必要 的 。 9 星 ， 简单 : 经 验 分 布 可 以 被 定义 成 一 
个 Multinoulli 分 布 ， 对 于 每 一 个 可 能 的 输入 ， 其 概率 可 以 简单 地 设 为 在 训练 集 上 那 
个 输入 值 的 经 验 频率 (empirical frequency )。 

当 我 们 在 训练 集 上 训练 模型 时 ， 我 们 可 以 认为 从 这 个 训练 集 上 得 到 的 经 验 分 
布 指明 了 我 们 采样 来 源 的 分 布 。 关 于 经 验 分 布 另 外 一 种 重要 的 观点 是 ， 它 是 训练 数 
据 的 似 然 最 大 的 那个 概率 密度 函数 ( 见 第 5.5 节 )。 





3.9.6 ”分布 的 混合 


通过 组 合 一 些 简单 的 概率 分 布 来 定义 新 的 概率 分 布 也 是 很 常见 的 。 一 种 通用 的 组 
合 方法 是 构造 混合 分 布 (mixture distribution )。 混 合 分 布 由 一 些 组 件 (component) 
分 布 构成 。 每 次 实验 ， 样 本 是 由 哪个 组 件 分 布 产 生 的 取决 于 从 一 个 Multinoulli 分 
布 中 采样 的 结 





= 2 Pfe=iPCxlc= 让 ， (3.29) 
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这 里 P(c) 是 对 各 组 件 的 一 个 Multinoulli 分 布 。 

我 们 已 经 看 过 一 个 混合 分 布 的 例子 了 : 实 值 变量 的 经 验 分 布 对 于 每 一 个 训练 实 
例 来 说 ， 就 是 以 Dirac 分 布 为 组 件 的 混合 分 布 。 

混合 模型 是 组 合 简单 概率 分 布 来 生成 更 丰富 的 分 布 的 一 种 简单 策略 。 在 第 十 
六 章 中 ， 我 们 更 加 详细 地 探讨 从 简单 概率 分 布 构建 复杂 模型 的 技术 。 

混合 模型 使 我 们 能 够 一 敬 以 后 会 用 到 的 一 个 非常 重要 的 概念 一 一 潜 变 量 
(latent variable ) 。 潜 变量 是 我 们 不 能 直接 观测 到 的 随机 变量 。 混 合 模 型 的 组 件 标 
识 变量 ec 就 是 其 中 一 个 例子 。 潜 变量 在 联合 分 布 中 可 能 和 x 有 关 ， 在 这 种 情况 下 ， 
P(xc) = P(x|c)P(e。 洪 变量 的 分 布 P(e) 以 及 关联 湾 变 量 和 观测 变量 的 条 件 分 布 
P(x lec)， 共 同 决 定 了 分 布 P(x) 的 形状 ， 尽 管 描述 P(x) 时 可 能 并 不 需要 潜 变 量 。 淤 
变量 将 在 第 16.5 节 中 这 入 讨论 。 

一 个 非常 强大 且 常 见 的 混合 模型 是 高 斯 混合 模型 ( Gaussian Mixture Model )， 
它 的 组 件 p(x | c= 浊 是 高 斯 分 布 。 每 个 组 件 都 有 各 自 的 参数 ,均值 wG) 和 协 方差 矩 
阵 马 @) 。 有 一 些 混合 可 以 有 更 多 的 限制 。 例 如 ,， 协 方差 矩阵 可 以 通过 马 O) = 瑟 ,Vi 的 
形式 在 组 件 之 间 共 享 参 数 。 和 单个 高 斯 分 布 一 样 ， 高 斯 混合 模型 有 时 会 限制 每 个 组 
件 的 协 方差 矩阵 为 对 角 的 或 者 各 回 同 性 的 (标量 乘 以 单位 矩阵 )。 

除了 均值 和 协 方差 以 外 ， 高 斯 混合 模型 的 参数 指明 了 给 每 个 组 件 ;的 先 验 概率 
(Prior probability ) ai = P(c = 让 。“ 先 验 ” 一 词 表 明了 在 观测 到 x 之 前 传递 给 模 
型 关于 e 的 信念 。 作 为 对 比 ，P(c | z)] 是 后 验 概 率 ( posterior probability )， 因 为 它 
是 在 观测 到 x 之 后 进行 计算 的 。 高 斯 混合 模型 是 概率 密度 的 万 能 近似 器 ( universal 
approximator )， 在 这 种 意义 下 ， 任 何平 滑 的 概率 密度 都 可 以 用 具有 足够 多 组 件 的 高 
斯 混合 模型 以 任意 精度 来 通 近 。 

图 3.2 演 示 了 某 个 高 斯 混合 模型 生成 的 样本 。 
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图 3.2: 来 自 高 斯 混合 模型 的 样本 。 在 这 个 示例 中 ， 有 三 个 组 件 。 从 左 到 右 ， 第 一 个 组 件 具有 各 向 
同性 的 协 方 差 矩阵 ， 这 意味 着 它 在 每 个 方向 上 具有 相同 的 方差 。 第 二 个 组 件 具有 对 角 的 协 方差 矩 
阵 ， 这 意味 着 它 可 以 沿 着 每 个 轴 的 对 章 方向 单独 控制 方差 。 该 示例 中 ， 沿 着 zz 轴 的 方差 要 比 沿 着 
21 轴 的 方差 大 。 第 三 个 组 件 具 有 满 秩 的 协 方差 矩阵 ， 使 它 能 够 治 着 任意 基 的 方向 单独 地 控制 方差 。 
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某 些 函数 在 处 理 概率 分 布 时 经 常会 出 现 ， 尤 其 是 深度 学 习 的 模型 中 用 到 的 概率 
分 布 。 

其 中 一 个 困 数 是 logistic sigmoid 函数 : 

1 

1 十 exp( 一 zZ) 
logistic sigmoid 函数 通常 用 来 产生 Bernoulli 分 布 中 的 参数 沁 ， 因 为 它 的 范围 是 
(0,1)， 处 在 的 有 效 取 值 范围 内 。 图 3.3 给 出 了 sigmoid 机 数 的 图 示 。sigmoid 函数 
在 变量 取 绝 对 值 非 常 大 的 正 值 或 负 值 时 会 出 现 饱 和 (saturate ) 现象 ， 意 味 着 函数 会 
变 得 很 平 ， 并 且 对 输入 的 微小 改变 会 变 得 不 敏感 。 

另外 一 个 经 常 遇 到 的 困 数 是 softplus 函数 (softplus function ) (Dugas et aol， 
2001): 


alZ) 三 (3.30) 


6C(Z) = log(1 十 exp(zZ)). (3.31) 


softplus 困 数 可 以 用 来 产生 正 态 分 布 的 让 和 c 参数 ， 因 为 它 的 范围 是 (0,co)。 当 处 
理 包 含 sigmoid 函数 的 表达 式 时 它 也 经 常 出 现 。softplus 函数 名 来 源 于 它 是 另外 一 个 
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图 3.3: logistic sigmoid 函 数 。 


函数 的 平滑 〈 或 “软化 ”) 形式 ， 这 个 函数 是 
十 


2Z ”一 Inax(0,Z). (3.32) 


图 3.4 给 出 了 softplus 函数 的 图 示 。 
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(2Z) 


图 3.4: softplus 函数 。 
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下 面 一 些 性 质 非 常 有 用 ， 你 可 能 要 记 下 来 : 











人 1 
人 三 (3.34) 
和 (3.35) 
1 (3.36) 

所 C(z) = (3.37) 
vze(0lD,orl(z) 一 log ( 一 -) (3.38) 
VzZ > 0,C-I(z) = log(exp(z) 一 了 (3.39) 
6aO= ro G.40) 

GZz) 一 4(-Z) 三 2 (3.41) 


函数 or-1(z) 在 统计 学 中 被 称 为 分 对 数 (logit )， 但 这 个 函数 在 机 器 学 习 中 很 少 用 到 。 

式 (3.41) 为 函数 名 “softplus” 提供 了 其 他 的 正当 理由 。softplus 函数 被 设计 成 正 
部 函数 ( positive part function ) 的 平滑 版 本 ， 这 个 正 部 函数 是 指 z+ = max{0,z}。 
与 正 部 函数 相对 的 是 负 部 函数 (negative part function ) z- = max{0, -2zZ}。 为 了 获 
得 类 似 负 部 函数 的 一 个 平滑 函数 ， 我 们 可 以 使 用 5(-z)。 就 像 > 可 以 用 它 的 正 部 和 
负 部 通过 等 式 zf -2z- = 2 恢复 一 样 ， 我 们 也 可 以 用 同样 的 方式 对 6(z) 和 (一 z) 
进行 操作 ， 就 像 式 (3.41) 中 那样 。 








3.11 贝 叶 斯 规则 


我 们 经 常会 需要 在 已 知 P(y | x) 时 计算 P(x | y)。 幸 运 的 是 ， 如 果 还 知道 P(x)， 
我 们 可 以 用 贝 叶 斯 规则 ( Bayes' rule ) 来 实现 这 一 目的 : 
己 COPC | 世 

Py) 
注意 到 P(y) 出 现在 上 面 的 公式 中 ， 它 通常 使 用 P(y) = 并 。P(y | z)P(z) 来 计算 ， 
所 以 我 们 并 不 需要 事先 知道 P(y) 的 信息 。 


Pex| = (3.42) 
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贝 叶 斯 规则 可 以 从 条 件 概率 的 定义 直接 推导 得 出 ， 但 我 们 最 好 记 住 这 个 公式 的 
名 字 ， 因 为 很 多 文献 通过 名 字 来 引用 这 个 公式 。 这 个 公式 是 以 牧师 Thomas Bayes 
的 名 字 来 命名 的 ， 他 是 第 一 个 发 现 这 个 公式 特例 的 人 。 这 里 介绍 的 一 般 形 式 由 
Pierre-Simon Laplace 独立 发 现 。 


3.12 ”连续 型 变量 的 技术 细节 


连续 型 随机 变量 和 概率 密度 冰 数 的 深入 理解 需要 用 到 数学 分 支 测 度 论 (measure 
theory ) 的 相关 内 容 来 扩展 概率 论 。 测 度 论 超出 了 本 书 的 范畴 ,但 我 们 可 以 简要 勾勒 
一 些 测度 论 用 来 解决 的 问题 。 

在 第 3.3.2 节 中 ， 我 们 已 经 看 到 连续 型 向 量 值 随机 变量 x 落 在 某 个 集合 $ 中 的 
概率 是 通过 pz(z) 对 集合 $ 积分 得 到 的 。 对 于 集合 $ 的 一 些 选 择 可 能 会 引起 迟 论 。 僵 
如 ， 构 造 两 个 集合 S; 和 Sa 使 得 pl(zeSi)+p(zeS) >1 并 且 SngSs = 人 是 可 能 
的 。 这 些 集 合 通常 是 大 量 使 用 了 实数 的 无 限 精 度 来 构造 的 ， 例 如 通过 构造 分 形 形 状 
(fractal-shaped) 的 集合 或 者 是 通过 有 理 数 相关 集合 的 变换 定义 的 集合 。? 测度 论 的 
一 个 重要 贡献 就 是 提供 了 一 些 集合 的 特征 使 得 我 们 在 计算 概率 时 不 会 遇 到 悖 论 。 在 
本 书 中 ， 我 们 只 对 相对 简单 的 集合 进行 积分 ， 所 以 测度 论 的 这 个 方面 不 会 成 为 一 个 
相关 考虑 。 

对 于 我 们 的 目的 , 测度 论 更 多 的 是 用 来 描述 那些 适用 于 及 ”上 的 大 多 数 点 ， 却 不 
适用 于 一 些 边界 情 况 的 定理 。 测 度 论 提供 了 一 种 严格 的 方式 来 描述 那些 非常 微小 的 
点 集 。 这 种 集合 被 称 为 “ 零 测 度 ( measure zero ) ”的 。 我 们 不 会 在 本 书 中 给 出 这 个 
概念 的 正式 定义 。 然 而 ， 直 观 地 理解 这 个 概念 是 有 用 的 ， 我 们 可 以 认为 零 测 度 集 在 
我 们 的 度量 空间 中 不 占有 任何 的 体积 。 例 如 ,在 到 ? 空间 中 ， 一 条 直线 的 测度 为 零 ， 
而 填充 的 多 边 形 具有 正 的 测度 。 类 似 的 ， 一 个 单独 的 点 的 测度 为 零 。 可 数 多 个 零 测 
度 集 的 并 仍然 是 零 测 度 的 (所 以 所 有 有 理 数 构成 的 集合 测度 为 零 ) 。 

另外 一 个 有 用 的 测度 论 中 的 术语 是 “几乎 处 处 (almost everywhere ) ”。 某 个 性 
质 如 果 是 几乎 处 处 都 成 立 的 ,那么 它 在 整个 空间 中 除了 一 个 测度 为 零 的 集合 以 外 都 
是 成 立 的 。 因 为 这 些 例 外 只 在 空间 中 占有 极其 微小 的 量 ， 它 们 在 多 数 应 用 中 都 可 以 
被 放心 地 忽略 。 概 率 论 中 的 一 些 重 要 结果 对 于 离散 值 成 立 但 对 于 连续 值 只 能 是 “ 几 
乎 处 处 ”成 立 。 

3Banach-Tarski 定理 给 出 了 这 类 集合 的 一 个 有 趣 的 例子 。 译 者 注 : 我 们 这 里 把 “the set of rational numbers” 翻 
译 成 “有 理 数 相关 集合 ”， 理 解 为 “一 些 有 理 数 组 成 的 集合 ”， 如 果 直 接 用 后 面 的 翻译 读 起 来 会 比较 押 口 。 
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连续 型 随机 变量 的 另 一 技术 细节 ， 涉 及 到 处 理 那 种 相互 之 间 有 确定 性 函数 关系 
的 连续 型 变量 。 假 设 我 们 有 两 个 随机 变量 x 和 y 满足 Vy= 9(m， 其 中 9 是 可 逆 的 、 
连续 可 微 的 函数 。 可 能 有 人 会 想 zy(W) = pz(9( 切 )。 但 实际 上 这 并 不 对 。 

淮 _- 


个 简单 的 例子 ， 假 设 我 们 有 两 个 标量 值 随 机 变量 x 和 y， 并 且 满 足 y = 兰 
以 及 x ~ UV(0,1D)。 如 果 我 们 使 用 人 ) = pe(2y)， 那 么 py 除了 区 间 [0, 引 以 外 都 为 
0， 并 且 在 这 个 区 间 上 的 值 为 1。 这 意味 着 


/mw 了 (3.49) 


而 这 违背 了 概率 密度 的 定义 (积分 为 1)。 这 个 常见 错误 之 所 以 错 是 因为 它 没有 考虑 
到 引入 函 数 9 后 造成 的 空间 变形 。 回 忆 一 下 ,，z 落 在 无 穷 小 的 体积 为 yz 的 区 域内 的 
概率 为 p(z)6z。 因 为 9 可 能 会 扩展 或 者 压缩 空间 , 在 z 空间 内 的 包围 着 z 的 无 穷 小 
体积 在 y 空间 中 可 能 有 不 同 的 体积 。 


为 了 看 出 如 何 改正 这 个 问题 ， 我 们 回 到 标量 值 的 情况 。 我 们 需要 保持 下 面 这 个 
生 质 : 











LI 








|py(9(z))ay| = |Pz(z)dz|. (3.44) 
求解 上 式 ， 我 们 得 到 

太 ( 人 = 有 (9 (3.45) 
或 者 等 价 地 ， 

产 O= me 人 | 玫 昌 | (40) 





高 维 空间 中 ， 微 分 运算 扩展 为 Jacobian 德 阵 ( Jacobian matrix ) 的 行列 式 一 一 
和 矩阵 的 每 个 元 素 为 帮 ) = 0 因此 ， 对 于 实 值 向 量 z 和 ?， 








O 
疡 四 一 mg(a)|aet( 宅 王 角 | .4 
3.13 ”信息 
信息 论 是 应 用 数学 的 一 个 分 支 ， 主 要 研究 的 是 对 一 个 信号 包含 信息 的 多 少 进行 


量化 。 它 了 最 | 个 含有 噪声 的 信道 上 用 离散 的 字母 表 来 发 送 消 
息 ， 例 如 通过 无 线 电 传输 来 通信 。 在 这 种 情况 下 ， 信 息 论 告诉 我 们 如 何 对 消息 设计 
最 优 编码 以 及 计算 消息 的 期 望 长 度 ， 这 些 消息 是 使 用 多 种 不 同 编码 机 制 、 从 特定 
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的 概率 分 布 上 采样 得 到 的 。 在 机 器 学 习 中 ， 我 们 也 可 以 把 信息 论 应 用 于 连续 型 变量 ， 
此 时 某 些 消息 长 度 的 解释 不 再 适用 。 信 息 论 是 电子 工程 和 计算 机 科学 中 许多 领域 的 
基础 。 在 本 书 中 ,我们 主要 使 用 信息 论 的 一 些 关键 思想 来 描述 概率 分 布 或 者 量化 概 
率 分 布 之 间 的 相似 性 。 有 关 信 息 论 的 更 多 细节 ， 参 见 Cover and Thomas (2006) 或 
者 MacKay (2003)。 

言 息 论 的 基本 想法 是 一 个 不 太 可 能 的 事件 居然 发 生 了 ， 要 比 一 个 非常 可 能 的 事 
件 发 生 ， 能 提供 更 多 的 信息 。 消 息 说 :“ 今 天 早上 太阳 升 起 ”信息 量 是 如 此 之 少 以 至 
于 没有 必要 发 送 ， 但 一 条 消息 说 :“ 今 天 早上 有 日 食 ” 信息 量 就 很 丰富 。 

我 们 想 要 通过 这 种 基本 想法 来 量化 信息 。 特 别 地 ， 


























。 非常 可 能 发 生 的 事件 信息 量 要 比较 少 ， 并 且 极 端 情况 下 ， 确 保 能 够 发 生 的 事件 
应 该 没有 信息 量 。 


。 较 不 可 能 发 生 的 事件 具有 更 高 的 信息 量 。 


。 独 立 事件 应 具有 增 量 的 信息 。 例 如 ， 投 掷 的 硬币 两 次 正面 朝 上 传递 的 信息 量 ， 
应 该 是 投掷 一 次 硬币 正面 朝 上 的 信息 量 的 两 倍 。 





为 了 满足 上 述 三 个 性 质 ,我 们 定义 一 个 事件 x=z 的 自信 息 (self-information ) 





为 

T(zZ) 三 一 log 己 (z). (3.48) 
在 本 书 中 ， 我 们 总 是 用 log 来 表示 自然 对 数 ， 其 底数 为 e。 因 此 我 们 定义 的 T(z) 单 
位 是 奈 特 (nats )。 一 奈 特 是 以 = 的 概率 观测 到 一 个 事件 时 获得 的 信息 量 。 其 他 的 材 
料 中 使 用 底数 为 2 的 对 数 ， 单 位 是 比特 (bit ) 或 者 香农 (shannons ); 通过 比特 度 
量 的 信息 只 是 通过 奈 特 度量 信息 的 常数 倍 。 

当 x 是 连续 的 ， 我 们 使 用 类 似 的 关于 信息 的 定义 ， 但 有 些 来 源 于 离散 形式 的 性 
质 就 丢失 了 。 例 如 ,一 个 具有 单位 密度 的 事件 信息 量 仍然 为 0， 但 是 不 能 保证 它 一 定 
发 生 。 

自信 息 只 处 理 单个 的 输出 。 我 们 可 以 用 香农 米 ( Shannon entropy ) 来 对 整个 概 
率 分 布 中 的 不 确定 性 总 量 进 行 量化 : 


万 (x) = 下 。p[T(o)] = -Epog P(z， (3.49) 


也 记 作 五 (P)。 换 言 之 ,一 个 分 布 的 香农 业 指 遵循 这 个 分 布 的 事件 所 产生 的 期 望 信 
息 总 量 。 它 给 出 了 对 依据 概率 分 布 己 生成 的 符号 进行 编码 所 需 的 比特 数 在 平均 意义 
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上 的 下 界 ( 当 对 数 底数 不 是 2 时 , 单位 将 有 所 不 同 )。 那 些 接近 确定 性 的 分 布 (输出 几 
乎 可 以 确定 ) 具有 较 低 的 精 ; 那些 接近 均匀 分 布 的 概率 分 布 具有 较 高 的 箭 。 图 3.5 给 
出 了 一 个 说 明 。 当 x 是 连续 的 ， 香 农 和 被 称 为 微分 〈 diferential entropy )。 
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图 3.5: 二 值 随机 变量 的 香农 烂 。 该 图 说 明了 更 接近 确定 性 的 分 布 是 如 何 具有 较 低 的 香农 炒 ， 而 更 
接近 均匀 分 布 的 分 布 是 如 何 具 有 较 高 的 香农 。 水 平 轴 是 p， 表 示 二 值 随机 变量 等 于 1 的 概率 。 糊 
由 (pp 一 JJlog(1 -Do 一 plogp 给 出 。 当 P2 接近 0 时 ， 分 布 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 
0。 当 了 接近 1 时 ， 分 布 也 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 1。 当 p = 0.5 时 ， 和 是 最 大 的 ， 
因为 分 布 在 两 个 结果 (0 和 1 ) 上 是 均匀 的 。 


















































如 果 我 们 对 于 同一 个 随机 变量 x 有 两 个 单独 的 概率 分 布 P(x) 和 Q@( 人 oj)， 我 们 可 
以 使 用 K 工 散 度 (Kullback-Leibler (KL) divergence ) 来 衡量 这 两 个 分 布 的 差异 : 


2 = 二 logE 厅 -GO 信友 


在 离散 型 变量 的 情况 下 ，KL 散 度 衡量 的 是 ， 当 我 们 使 用 一 种 被 设计 成 能 够 使 
得 概率 分 布 Q& 产生 的 消息 的 长 度 最 小 的 编码 ， 发 送 包 含 由 概率 分 布 已 产生 的 符号 
的 消息 时 ,， 所 需要 的 额外 信息 量 (如 果 我 们 使 用 底数 为 2 的 对 数 时 ,信息 量 用 比特 衡 
量 ， 但 在 机 噩 学 习 中 ,我们 通常 用 奈 特 和 自然 对 数 。) 

KL 散 度 有 很 多 有 用 的 性 质 ， 最 重要 的 是 它 是 非 负 的 。KL 散 度 为 0 当 且 仅 当 
己 和 Q@ 在 离散 型 变量 的 情况 下 是 相同 的 分 布 ， 或 者 在 连续 型 变量 的 情况 下 是 “几乎 
处 处 ”相同 的 。 因 为 KL 散 度 是 非 负 的 并 且 衡 量 的 是 两 个 分 布 之 间 的 差异 ， 它 经 常 
被 用 作 分 布 之 间 的 某 种 距离 。 然 而 ， 它 并 不 是 真 的 距离 因为 它 不 是 对 称 的 : 对 于 某 
些 己 和 @，Prr(PlIG) 夭 Drr(Q@IIP)。 这 种 非 对称 性 意味 着 选择 Prr(PIIQ) 还 是 





























Drr(PIQ) = 了 wwP 区 
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Pr(Q@|IP) 影响 很 大 。 更 多 细节 可 以 看 图 3.6 。 


必 一 argminyDKr(pll9) 和 = argminoDrKr(dllp) 


Probability Density 
Probability Density 




















图 3.6: KDL 散 度 是 不 对 称 的 。 假 设 我 们 有 一 个 分 布 p(z)， 并 且 和 希望 用 另 一 个 分 布 qd(z) 来 近似 它 。 
我 们 可 以 选择 最 小 化 Prr(plla) 或 最 小 化 Pr(dllm)。 为 了 说 明 每 种 选择 的 效果 ， 我 们 令 p 是 
个 高 斯 分 布 的 混合 ， 令 9 为 单个 高 斯 分 布 。 选 择 使 用 KL 散 度 的 哪个 方向 是 取决 于 问题 的 。 一 些 
应 用 需要 这 个 近似 分 布 9 在 真实 分 布 p 放置 高 概率 的 所 有 地 方 都 放置 高 概率 ， 而 其 他 应 用 需要 这 
个 近似 分 布 g 在 真实 分 布 p 放置 低 概率 的 所 有 地 方 都 很 少 放置 高 概率 。KL 散 度 方向 的 选择 反映 
了 对 于 每 种 应 用 ， 优 先 考虑 哪 一 种 选择 。( 堪 ) 最 小 化 DPKr(plla) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 9 使 得 它 在 p 具有 高 概率 的 地 方 具有 高 概率 。 当 P 具有 多 个 峰 时 ，4 选择 将 这 些 峰 模糊 到 
一 起 ， 以 便 将 高 概率 质量 放 到 所 有 峰 上 。( 右 ) 最 小 化 Dr(dllp) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 d 使 得 它 在 p 具有 低 概率 的 地 方 具有 低 概率 。 当 P 具有 多 个 峰 并 且 这 些 峰 间隔 很 宽 时 ， 如 
该 图 所 示 ， 最 小 化 KL 散 度 会 选择 单个 峰 ， 以 避免 将 概率 质量 放置 在 p 的 多 个 峰之 间 的 低 概率 区 
域 中 。 这 里 ， 我 们 说 明 当 9 被 选择 成 强调 左边 峰 时 的 结果 。 我 们 也 可 以 通过 选择 右边 峰 来 得 到 KL 
散 度 相同 的 值 。 如 果 这 些 峰 没有 被 足够 强 的 低 概率 区 域 分 离 ， 那 么 KL 散 度 的 这 个 方向 仍然 可 能 
选择 模糊 这 些 峰 。 
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一 个 和 KL 散 度 密 切 联系 的 量 是 交叉 精 (cross-entropy ) 妃 (已 Q) = 瓦 ( 忆 ) 十 
Drkr(PIIQ@)， 它 和 KL 散 度 很 像 但 是 缺少 左边 一 项 : 











末 (P,Q) = -E。、plogQ(z). (3.51) 





针对 Q 最 小 化 交叉 六 等 价 于 最 小 化 KL 散 度 ， 因 为 @ 并 不 参与 被 省 略 的 那 一 项 。 
当 我 们 计算 这 些 量 时 ， 经 常会 遇 到 0log 0 这 个 表达 式 。 按 照 惯例 ， 在 信息 论 中 ， 
我 们 将 这 个 表达 式 处 理 为 jms ozlogz = 0。 
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3.14 ”结构 化 概率 模型 


机 器 学 习 的 算法 经 常会 涉及 到 在 非常 多 的 随机 变量 上 的 概率 分 布 。 通 常 , 这 些 概 
率 分 布 涉及 到 的 直接 相互 作用 都 是 介 于 非常 少 的 变量 之 间 的 。 使 用 单个 函数 来 描述 
整个 联合 概率 分 布 是 非常 低 效 的 (无论 是 计算 上 还 是 统计 上 )。 

我 们 可 以 把 概率 分 布 分 解 成 许多 因子 的 乘积 形式 ， 而 不 是 使 用 单一 的 函数 来 表 
示 概 率 分 布 。 例 如 ,假设 我 们 有 三 个 随机 变量 ab 和 c, 并 且 a 影响 b 的 取 值 ，b 影 
响 c 的 取 值 ， 但 是 a 和 c 在 给 定 b 时 是 条 件 独立 的 。 我 们 可 以 把 全 部 三 个 变量 的 概 
率 分 布 重新 表示 为 两 个 变量 的 概率 分 布 的 连 乘 形式 : 


Pap,cj) 一 Da)jp(b | a)P(c | D)， (3.52) 











这 种 分 解 可 以 极 大 地 减少 用 来 描述 一 个 分 布 的 参数 数量 。 每 个 因子 使 用 的 参数 
数目 是 它 的 变量 数目 的 指数 倍 。 这 意味 着 ， 如 果 我 们 能 够 找到 一 种 使 每 个 因子 分 布 
具有 更 少 变量 的 分 解 方法 ， 我 们 就 能 极 大 地 降低 表示 联合 分 布 的 成 本 。 

我 们 可 以 用 图 来 描述 这 种 分 解 。 这 里 我 们 使 用 的 是 图 论 中 的 “图 ”的 概念 : 由 
一 些 可 以 通过 边 互 相连 接 的 顶点 的 集合 构成 。 当 我 们 用 图 来 表示 这 种 概率 分 布 的 分 
解 ， 我 们 把 它 称 为 结构 化 概率 模型 ( structured probabilistic model ) 或 者 图 模型 
( graphical model )。 


有 两 种 主要 的 结构 化 概率 模型 : 有 向 的 和 无 向 的 。 两 种 图 模型 都 使 用 图 9， 其 中 
图 的 每 个 节点 对 应 着 一 个 随机 变量 ， 连 接 两 个 随机 变量 的 边 意 味 着 概率 分 布 可 以 表 
示 成 这 两 个 随机 变量 之 间 的 直接 作用 。 

有 向 《directed ) 模型 使 用 帝 有 有 向 边 的 图 ， 它 们 用 条 件 概 率 分 布 来 表示 分 解 ， 
就 像 上 面 的 例子 。 特 别 地 ， 有 向 模型 对 于 分 布 中 的 每 一 个 随机 变量 xs 都 包含 着 一 个 











影响 因子 ， 这 个 组 成 忒 条 件 概 率 的 影响 因子 被 称 为 xi 的 父 节 点 ， 记 为 Pac (xi): 
D(x) 一 [Ge | Pac(Gx)， (3.53) 


图 3.7 给 出 了 一 个 有 向 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 

无 向 (undirected ) 模型 使 用 带 有 无 问 边 的 图 ,它们 将 分 解 表示 成 一 组 函数 ; 不 
像 有 向 模型 那样 ， 这 些 函 数 通常 不 是 任何 类 型 的 概率 分 布 。9 中 任何 满足 两 两 之 
间 有 边 连 接 的 顶点 的 集合 被 称 为 团 。 无 向 模型 中 的 每 个 团 CG) 都 伴随 着 一 个 因子 
(CO9)。 这 些 因 子 仅仅 是 函数 ， 并 不 是 概率 分 布 。 每 个 因子 的 输出 都 必须 是 非 负 
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CE@ 
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图 3.7: 关于 随机 变量 ab,c,d 和 e 的 有 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 











P(ab,c,de) 二 Ptajpp | a)p(c| a,b)p(d |b)pte | 9) (3.54 

















该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 e 直接 相互 影响 ， 但 a 和 e 只 有 通 
过 < 间接 相互 影响 。 








的 ， 但 是 并 没有 像 概率 分 布 中 那样 要 求 因 子 的 和 或 者 积分 为 1。 

随机 变量 的 联合 概率 与 所 有 这 些 因 子 的 乘积 成 比例 ( proportional ) 一 一 意味 着 
因子 的 值 越 大 则 可 能 性 越 大 。 当 然 ,， 不 能 保证 这 种 乘积 的 求 和 为 1。 所 以 我 们 需要 除 
以 一 个 归 一 化 常数 2 来 得 到 归 一 化 的 概率 分 布 ， 归 一 化 常数 2 被 定义 为 几 国 数 乘 
积 的 所 有 状态 的 求 和 或 积分 。 概 率 分 布 为 : 





Z(x) = > 由 (es (3.55) 


图 3.8 给 出 了 一 个 无 向 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 

请 记 住 ， 这 些 图 模型 表示 的 分 解 仅 仅 是 描述 概率 分 布 的 一 种 语言 。 它 们 不 是 互 
相 排斥 的 概率 分 布 族 。 有 向 或 者 无 向 不 是 概率 分 布 的 特性 ; 它 是 概率 分 布 的 一 种 特 
殊 描 述 (description ) 所 具有 的 特性 ， 而 任何 概率 分 布 都 可 以 用 这 两 种 方式 进行 描 


述 。 








在 本 书 第 一 部 分 和 第 二 部 分 中 ,我 们 仅仅 将 结构 化 概率 模型 视 作 一 门 语言 ， 来 
描述 不 同 的 机 器 学 习 算 法 选择 表示 的 直接 的 概率 关系 。 在 讨论 研究 课题 之 前 ， 读 者 
不 需要 更 深入 地 理解 结构 化 概率 模型 。 在 第 三 部 分 的 研究 课题 中 ， 我 们 将 更 为 详尽 
地 探讨 结构 化 概率 模型 。 

本 章 复 习 了 概率 论 中 与 深度 学 习 最 为 相关 的 一 些 基 本 概念 。 我 们 还 剩 下 一 些 基 









































3.14 结构 化 概率 模型 71 


图 3.8: 关于 随机 变量 ab,c,d 和 e 的 无 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 











ppicdej = 到 00(aboge(b,dgate'e) (3.56) 





该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 直接 相互 影响 ,但 a 和 e 只 有 通 
过 < 间接 相互 影响 。 








本 的 数学 工具 需要 讨论 : 数值 方法 。 


第 四 章 “数值 计算 


机 融 学 习 算 法 通常 需要 大 量 的 数值 计算 。 这 通常 是 指 通过 迭代 过 程 更 新 解 的 佑 
计 值 来 解决 数学 问题 的 算法 ， 而 不 是 通过 解析 过 程 推导 出 公式 来 提供 正确 解 的 方法 。 
常见 的 操作 包括 优化 〈 找 到 最 小 化 或 最 大 化 函 数值 的 参数 ) 和 线性 方程 组 的 求解 。 
对 数字 计算 机 来 说 实数 无 法 在 有 限 内 存 下 精确 表示 ， 因 此 仅仅 是 计算 涉及 实数 的 冰 
数 也 是 困难 的 。 











4.1 洪 和 下 洪 


连续 数学 在 数字 计算 机 上 的 根本 困难 是 ， 我 们 需要 通过 有 限 数量 的 位 模式 来 表 
示 无 限 多 的 实数 。 这 意味 着 我 们 在 计算 机 中 表示 实数 时 ， 几 乎 总 会 引 和 一些 近似 误 
差 。 在 许多 情况 下 ， 这 仅仅 是 售 人 误差 。 舍 人 误差 会 导致 一 些 问题 ， 特 别 是 当 许多 
操作 复合 时 ， 即 使 是 理论 上 可 行 的 算法 ， 如 果 在 设计 时 没有 考虑 最 小 化 含 人 误差 的 
累积 ， 在 实践 时 也 可 能 会 导致 算法 失效 。 

一 种 极 具 毁 灭 性 的 售 人 误差 是 下 溢 (underfow )。 当 接近 有 零 的 数 被 四 含 五 人 为 
零 时 发 生 下 溢 。 许 多 函数 在 其 参数 为 零 而 不 是 一 个 很 小 的 正 数 时 才 会 表现 出 质 的 不 
同 。 例 如 ， 我 们 通常 要 避免 被 零 除 (一 些 软件 环境 将 在 这 种 情况 下 抛 出 异常 ， 有 些 
会 返回 一 个 非 数字 (not-arnumber, NaN) 的 占 位 符 ) 或 避免 取 零 的 对 数 (这 通常 被 
视 为 -oo， 进 一 步 的 算术 运算 会 使 其 变 成 非 数字 )。 

另 一 个 极 具 破 坏 力 的 数值 错误 形式 是 上 浇 (overfHow )。 当 大 量 级 的 数 被 近似 为 
oo 或 -co 时 发 生 上 溢 。 进 一 步 的 运算 通常 会 导致 这 些 无 限 值 变 为 非 数 字 。 

必须 对 上 溢 和 下 溢 进 行 数值 稳定 的 一 个 例子 是 softmax 函数 (softmax func- 
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tion )。softmax 困 数 经 常用 于 预测 与 Multinoulli 分 布 相关 联 的 概率 ， 定 义 为 


exp() 
二 0 


考虑 一 下 当 所 有 六 都 等 于 某 个 常数 c 时 会 发 生 什么 。 从 理论 分 析 上 说 ， 我 们 可 以 发 
现 所 有 的 输出 都 应 该 为 二 。 从 数值 计算 上 说 ， 当 c 量 级 很 大 时 ， 这 可 能 不 会 发 生 。 如 
果 “是 很 小 的 负数 ，exp(c) 就 会 下 游 。 这 意味 着 softmax 困 数 的 分 母 会 变 成 0, 所 以 
最 后 的 结果 是 未 定义 的 。 当 ec 是 非常 大 的 正 数 时 ，exp(c) 的 上 溢 再 次 导致 整个 表达 
式 未 定义 。 这 两 个 困难 能 通过 计算 softmax(z) 同时 解决 ， 其 中 z= z 一 maxs。 简 
单 的 代数 计算 表明 ，softmax 解析 上 的 函数 值 不 会 因为 从 输入 向 量 减 去 或 加 上 标量 
而 改变 。 减 去 maxi zi 导致 exp 的 最 大 参数 为 0， 这 排除 了 上 溢 的 可 能 性 。 同 样 地 ， 
分 母 中 至 少 有 一 个 值 为 1 的 项 ， 这 就 排除 了 因 分 母 下 滋 而 导致 被 零 除 的 可 能 性 。 

还 有 一 个 小 问题 。 分 子 中 的 下 溢 仍 可 以 导致 整体 表达 式 被 计算 为 零 。 这 意味 着 ， 
如 果 我 们 在 计算 log softmax(z) 时 ， 先 计算 softmax 再 把 结果 传 给 log 本 数 ， 会 错 
误 地 得 到 -co。 相 反 ， 我 们 必须 实现 一 个 单独 的 郴 数 ， 并 以 数值 稳定 的 方式 计算 
log softmax。 我 们 可 以 使 用 相同 的 技巧 来 稳定 logsoftmax 函数 。 

在 大 多 数 情况 下 ， 我 们 没有 明确 地 对 本 书 描述 的 各 种 算法 所 涉及 的 数值 考虑 进 
行 详细 说 明 。 底 层 库 的 开发 者 在 实现 次 度 学 习 算 法 时 应 该 牢记 数值 问题 。 本 书 的 大 
多 数 读 者 可 以 简单 地 依赖 保证 数值 稳定 的 底层 库 。 在 某 些 情况 下 ， 我 们 有 可 能 在 实 
现 一 个 新 的 算法 时 自动 保持 数值 稳定 。Theano (Bergstra et al., 2010a; Bastien et al 
2012a) 就 是 这 样 软件 包 的 一 个 例子 ， 它 能 自动 检测 并 稳定 深度 学 习 中 许多 销 见 的 数 
值 不 稳定 的 表达 式 。 





softmax(zZ); 一 




















4.2 ”病态 条 件 


条 件数 表征 函数 相对 于 输入 的 微小 变化 而 变化 的 快慢 程度 。 输 入 被 轻微 扰动 而 
迅速 改变 的 函数 对 于 科学 计算 来 说 可 能 是 有 问题 的 ， 因 为 输入 中 的 伟人 误差 可 能 导 
致 输出 的 巨大 变化 。 

考虑 函数 jz) = 4-1z。 当 4 E Rnxw 具有 特征 值 分 解 时 ， 其 条 件数 为 











也 


(4.2) 
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这 是 最 大 和 最 小 特征 值 的 模 之 比 !。 当 该 数 很 大 时 , 和 失 阵 求 逆 对 输入 的 误差 特别 敏感 。 

这 种 敏感 性 是 矩阵 本 身 的 固有 特性 ， 而 不 是 矩阵 求 送 期 间 舍 人 误差 的 结果 。 即 
使 我 们 乘 以 完全 正确 的 矩阵 道 ， 病 态 条 件 的 和 矩阵 也 会 放大 预先 存在 的 误差 。 在 实践 
中 ， 该 错误 将 与 求 着 过 程 本 身 的 数值 误差 进一步 复合 。 











4.3 ”基于 梯度 的 优化 方法 


大 多 数 深度 学 习 算 法 都 涉及 某 种 形式 的 优化 。 优 化 指 的 是 改变 z 以 最 小 化 或 最 
大 化 某 个 函数 /mw) 的 任务 。 我 们 通常 以 最 小 化 /z) 指 代 大 多 数 最 优化 问题 。 最 大 
化 可 经 由 最 小 化 算法 最 小 化 -./z) 来 实现 。 

我 们 把 要 最 小 化 或 最 大 化 的 函数 称 为 目标 函数 (objective function ) 或 准则 
(Ccriterion )。 当 我 们 对 其 进行 最 小 化 时 ， 我 们 也 把 它 称 为 代价 函数 (cost function )、 
损失 函数 (loss function ) 或 误差 函数 (error function )。 虽 然 有 些 机 器 学 习 著 作 赋 
予 这 些 名称 特 殊 的 意义 ， 但 在 这 本 书 中 我 们 交替 使 用 这 些 术语 。 

我 们 通常 使 用 一 个 上 标 * 表示 最 小 化 或 最 大 化 函数 的 z 值 。 如 我 们 记 福 = 
argmin 帮 z)。 

我 们 假设 读者 已 经 熟悉 微 积分 ， 这 里 简要 回顾 微 积 分 概念 如 何 与 优化 联系 。 

假设 我 们 有 一 个 机 数 y = j 帮 ,其 中 zx 和 y 是 实数 。 这 个 冰 数 的 导数 ( derivative ) 
记 为 j(z) 或 型 。 导 数 户 (z) 代表 jz) 在 点 z 处 的 斜率。 换 句 话说 ， 它 表明 如 何 缩 
放 输 入 的 小 变化 才能 在 输出 获得 相应 的 变化 : fz+e) sz 二 ee 天 (站 )。 

因此 导数 对 于 最 小 化 一 个 函数 很 有 用 ， 因 为 它 告 诉 我 们 如 何 更 改 z 来 略微 地 改 
善 y。 例 如 ,我们 知道 对 于 足够 小 的 e 来 说 ，jz- esign( 廊 (四 )) 是 比 Fo 小 的 。 
此 我 们 可 以 将 z 往 导数 的 反方 向 移动 一 小 步 来 减 小 /四 。 这 种 技术 被 称 为 梯度 下 降 
(gradient descent ) (Cauchy, 1847)。 图 4.1 展示 了 一 个 例子 。 

当 j(z) = 0， 导 数 无 法 提供 往 哪个 方向 移动 的 信息 。j(z) = 0 的 点 称 为 临界 
点 (critical point ) 或 驻 点 (stationary point )。 一 个 局 部 极 小 点 (local minimum ) 
意味 着 这 个 点 的 /z) 小 于 所 有 邻近 点 ， 因 此 不 可 能 通过 移动 无 穷 小 的 步 长 来 减 小 
jJm)。 一 个 局 部 极 大 点 (local maximum ) 意味 着 这 个 点 的 Am 大 于 所 有 邻近 点 ， 
此 不 可 能 通过 移动 无 穷 小 的 步 长 来 增 大 7/ 疙 mm)。 有 些 临界 点 既 不 是 最 小 点 也 不 是 最 大 


+ 译 者 注 : 与 通常 的 条 件数 定义 有 所 不 同 。 
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For z < 0, we have 万 ( 


Imoving rightward. 








Global minimum at Z = 0. 
Since 有 放 (z) = 0, gradient 
descent halts here. 


2) FEor z > 0, we have 太 (z) > 
SO We can decrease 厂 b SO We can decrease 三 by 


Imoving leftward. 


人 
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图 4.1: 梯度 下 降 。 梯 度 下 降 算 法 如 何 使 用 函数 导数 的 示意 网 ， 即 沿 着 函数 的 下 坡 方向 〈 导数 反方 








向 ) 直到 最 小 。 





点 。 这 些 点 被 称 为 鞍点 (saddle point )。 见 图 4.2 给 出 的 各 种 临界 点 的 例子 。 
Minimum Maximum Saddle point 


图 4.2: 临界 点 的 类 型 。 一 维 情况 下 ， 三 种 临 


备 界 点 的 示例 。 临 界 点 是 斜率 为 零 的 点 。 这 林 





是 局 部 极 小 点 (local minimum )， 其 值 低 了 








F 相 邻 点 ; 局 部 极 大 点 〈1local maximum )， 其 值 高 村 


的 点 可 以 





邻 点 ; 或 鞍点 ， 同 时 存在 更 高 和 更 低 的 相 邻 点 。 


F 相 


使 f(z) 取得 绝对 的 最 小 值 ( 相 对 所 有 其 他 值 ) 的 点 是 全 局 最 小 点 (global 
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minimum )。 琢 数 可 能 只 有 一 个 全 局 最 小 点 或 存在 多 个 全 局 最 小 点 ， 还 可 能 存在 不 是 
全 局 最 优 的 局 部 极 小 点 。 在 深度 学 习 的 背景 下 ， 我 们 要 优化 的 函数 可 能 含有 许多 不 
是 最 优 的 局 部 极 小 点 ， 或 者 还 有 很 多 处 于 非常 平坦 的 区 域内 的 鞍点 。 尤 其 是 当 输 入 
是 多 维 的 时 候 ， 所 有 这 些 都 将 使 优化 变 得 困难 。 因 此 ， 我 们 通常 寻找 使 厂 非常 小 的 
点 ， 但 这 在 任何 形式 意义 下 并 不 一 定 是 最 小 。 见 图 4.3 的 例子 。 











This local minimum 
performs nearly as well as 
the global one， 

So it is an acceptable 
halting point. 


Ideally，we would like 
to arrive at the global 
minimum，but this 

might not be possible. 


7(z) 


This local minimum performs 
poorly and should be avoided. 





图 4.3: 近似 最 小 化 。 当 存在 多 个 局 部 极 小 点 或 平坦 区 域 时 ， 优 化 算法 可 能 无 法 找到 全 局 最 小 点 。 


在 深度 学 习 的 背景 下 ， 即 使 找到 的 解 不 是 真正 最 小 的 ,但 只 要 它们 对 应 于 代价 函数 显著 低 的 值 , 我 
们 通常 就 能 接受 这 样 的 解 。 



































我 们 经 常 最 小 化 具有 多 维 输入 的 函数 : 请: 了 "一 下 。 为 了 使 “最 小 化 ”的 概念 有 
意义 ， 输 出 必须 是 一 维 的 (标量 )。 

针对 具有 多 维 输入 的 函数 ， 我 们 需要 用 到 偏 导 数 (partial derivative ) 的 概念 。 
偏 导 数 世 /za) 衡量 点 2 处 只 有 zi 增加 时 jz) 如 何 变化 。 梯 度 (gradient ) 是 相 
对 一 个 向 量 求 导 的 导数 :j 的 导数 是 包含 所 有 偏 导 数 的 向 量 ， 记 为 Vj(z)。 梯 度 的 第 
1 个 元 素 是 了 关于 zi 的 俩 导数。 在 多 维 情况 下 ， 临 界 点 是 梯度 中 所 有 元 素 都 为 零 的 
点 


在 (单位 向 量 ) 方向 的 方向 导数 (directional derivative ) 是 函数 六 在 尺 方向 
的 斜率 。 换 句 话 说， 方向 导数 是 函数 /z+ aa 关于 a 的 导数 (在 a = 0 时 取得 )。 
使 用 链 式 法 则 ， 我 们 可 以 看 到 当 w = 0 时 ， 芝 jz+auw =wVajf(z)。 
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为 了 最 小 化 户 我 们 希望 找到 使 / 下降 得 最 快 的 方向 。 计 算 方向 导数 : 


min UVzj (4.3) 
QU 一 | 
= in allYajz)ll>cos4 (4 多 





其 中 0 是 与 梯度 的 夹 角 。 将 ul = 工 代 入 ,并 忽略 与 怀 无 关 的 项 ， 就 能 简化 得 
到 min cos0。 这 在 与 梯度 方向 相反 时 取得 最 小 。 换 句 话 说， 梯度 向 量 指向 上 坡 ， 
负 梯 度 向 量 指向 下 坡 。 我 们 在 负 梯 度 方向 上 移动 可 以 减 小 六 这 被 称 为 最 速 下 降 法 
(method of steepest descent) 或 梯度 下 降 (gradient descent )。 


最 速 下 降 建 议 新 的 点 为 








坟 =2Z 一 ecEVzj(z) (4.5) 





其 中 e 为 学 习 率 (learning rate )， 是 一 个 确定 步 长 大 小 的 正 标量 。 我 们 可 以 通过 几 
种 不 同 的 方式 选择 e。 普 遍 的 方式 是 选择 一 个 小 常数 。 有 时 我 们 通过 计算 ， 选 择 使 方 
向 导数 消失 的 步 长 。 还 有 一 种 方法 是 根据 几 个 e 计算 /(z- eVa。jm)， 并 选择 其 中 
能 产生 最 小 目标 函数 值 的 e。 这 种 策略 被 称 为 线 搜索 。 

最 速 下 降 在 梯度 的 每 一 个 元 素 为 零 时 收敛 ( 或 在 实践 中 ， 很 接近 零 时 )。 在 某 些 
情况 下 ， 我 们 也 许 能 够 避免 运行 该 迭代 算法 ， 并 通过 解 方程 Vsj(z) = 0 直接 跳 到 临 
界 点 。 

虽然 梯度 下 降 被 限制 在 连续 空间 中 的 优化 问题 ， 但 不 断 向 更 好 的 情况 移动 一 小 
步 〈 即 近似 最 佳 的 小 移动 ) 的 一 般 概 念 可 以 推广 到 离散 空间 。 递 增 带 有 离散 参数 
的 目标 函数 被 称 为 忠 山 (hill climbing ) 算法 (Russel and Norvig, 2003)。 

















4.3.1 梯度 之 上 : Jacobian 和 Hessian 和 矩阵 


有 时 我 们 需要 计算 输入 和 输出 都 为 向 量 的 函数 的 所 有 偏 导 数 。 包 含 所 有 这 样 的 
偏 导数 的 怎 阵 被 称 为 Jacobian 矩阵。 具体 来 说 , 如 果 我 们 有 一 个 国 数 : 疡 :了 m 一 月"， 
的 Jacobian 抢 阵 Je 了 月"x7 定义 为 帮 ) 一 (光大 

有 时 , 我 们 也 对 导数 的 导数 感 兴趣 ， 即 二 阶 导 数 (second derivative )。 例 如 ， 有 
一 个 函数 厂 : 有” 一 及 ，; 的 一 阶 导数 (关于 轧 ) 关于 zi 的 导数 记 为 25/ 太 在 一 维 
情况 下 ， 我 们 可 以 将 荔 久 为 六 (z)。 二 阶 导 数 告诉 我 们 ， 一 阶 导数 将 如 何 随 着 输入 
的 变化 而 改变 。 它 表示 只 基于 梯度 信息 的 梯度 下 降 步 又 是 否 会 产生 如 我 们 预期 的 那 
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样 大 的 改善 ， 因 此 它 是 重要 的 。 我 们 可 以 认为 ， 二 阶 导 数 是 对 曲率 的 衡量 。 假 设 我 
们 有 一 个 二 次 函数 (虽然 很 多 实践 中 的 函数 都 不 是 二 次 的 ， 但 至 少 在 局 部 可 以 很 好 
地 用 二 次 近似 )。 如 果 这 样 的 函数 具有 零 二 阶 导 数 ， 那 就 没有 曲率 。 也 就 是 一 条 完全 
平坦 的 线 ， 仅 用 梯度 就 可 以 预测 它 的 值 。 我 们 使 用 沿 负 梯 度 方向 大 小 为 e 的 下 降 步 ， 
当 该 梯度 是 1 时 ， 代 价 函 数 将 下 降 e。 如 果 二 阶 导 数 是 负 的 ， 函 数 曲 线 向 下 凹陷 (向 
上 辐 出 )， 因 此 代价 函数 将 下 降 的 比 e 多 。 如 果 二 阶 导 数 是 正 的 ， 枯 数 曲线 是 向 上 四 
陷 (向 下 巴 出 )， 因 此 代价 杖 数 将 下 降 的 比 e 少 。 从 图 4.4 可 以 看 出 不 同形 式 的 曲率 如 
何 影 响 基 于 梯度 的 预测 值 与 真实 的 代价 刺 数值 的 关系 。 


Negative curvature No curvature Positive curvature 
四 人 全 
\ 必 : < 
二 拓 二 
人 人 仑 


图 4.4: 二 阶 导数 确定 函数 的 曲率 。 这 里 我 们 展示 具有 各 种 曲率 的 二 次 函数 。 虚 线 表示 我 们 仅 根 据 
梯度 信息 进行 梯度 下 降 后 预期 的 代价 函数 值 。 对 于 负 曲 率 ， 代 价 函 数 实际 上 比 梯度 预测 下 降 得 更 
快 。 没 有 曲率 时 ， 梯度 正 确 预测 下 降 值 。 对 于 正 曲率 ， 函 数 比 预 期 下 降 得 更 慢 ， 并 且 最 终 会 开始 增 
加 ， 因 此 太 大 的 步骤 实际 上 可 能 会 无 意 地 增加 函数 值 。 



























































当 我 们 的 函数 具有 多 维 输入 时 ， 二 阶 导 数 也 有 很 多 。 我 们 可 以 将 这 些 导数 合并 
成 一 个 矩阵 ， 称 为 Hessian 和 抢 阵 。Hessian 矩阵 瑟 ( 放 (zz) 定义 为 
吕 2? 
瑟 (mi 三 二 (4.6) 


Hessian 等 价 于 梯度 的 Jacobian 和 拖 阵 。 
微分 算 子 在 任何 二 阶 俩 导 连 续 的 点 处 可 交换 ， 也 就 是 它们 的 顺序 可 以 互 换 : 


D? D? 





(4.7) 
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这 意味 着 太 j = 万 :因此 Hessian 和 阵 在 这 些 点 上 是 对 称 的 。 在 深度 学 习 青 景 下 ， 
我 们 遇 到 的 大 多 数 枉 数 的 Hessian 几乎 处 处 都 是 对 称 的 。 因 为 Hessian 矩阵 是 实 对 
称 的 ， 我 们 可 以 将 其 分 解 成 一 组 实 特 征 值 和 一 组 特征 向 量 的 正 交 基 。 在 特定 方向 qd 
上 的 二 阶 导 数 可 以 写成 d Ed。 当 & 是 五 的 一 个 特征 向 量 时 ， 这 个 方向 的 二 阶 导 
数 就 是 对 应 的 特征 值 。 对 于 其 他 的 方向 qd， 方向 二 阶 导 数 是 所 有 特征 值 的 加 权 平 均 ， 
权重 在 0 和 1L 之 间 ， 且 与 dg 夹 角 越 小 的 特征 向 量 的 权重 越 大 。 最 大 特征 值 确定 最 
大 二 阶 导数 ， 最 小 特征 值 确定 最 小 二 阶 导 数 。 

我 们 可 以 通过 (方向 ) 二 阶 导 数 预期 一 个 梯度 下 降 步 又 能 表现 得 多 好 。 我 们 在 
当前 点 zt0) 处 作 函 数 Am) 的 近似 二 阶 泰勒 级 数 : 








jg 四 = Jeo)+(z-ao)Trg+5ilz-ao)THze-azo) (4 





其 中 9 是 梯度 ， 互 是 zx0 点 的 Hessian。 如 果 我 们 使 用 学 习 率 <， 那 么 新 的 点 z 将 
会 是 z0) - eg。 代 入 上 述 的 近似 ， 可 得 





1 
jz 一 归 窒 Ja ) 一 cg 9 二 39 9 (49) 





其 中 有 3 项 : 函数 的 原始 值 、 函 数 斜 率 导致 的 预期 改善 、 函 数 曲 率 导致 的 校正 。 当 
最 后 一 项 太 大 时 ， 梯 度 下 降 实际 上 是 可 能 向 上 移动 的 。 当 9 五 g 为 零 或 负 时 ， 近 似 
的 泰勒 级 数 表 明 增 加 e 将 永远 使 了 下降。 在 实践 中 ， 泰 勒 级 数 不 会 在 大 的 时 候 也 
保持 准确 ， 因 此 在 这 种 情况 下 我 们 必须 采取 更 启发 式 的 选择 。 当 9 五 g 为 正 时 ， 通 
过 计算 可 得 ， 使 近似 泰勒 级 数 下 降 最 多 的 最 优 步 长 为 





芝 舍 ,1 (4.10) 





最 坏 的 情况 下 ，9 与 互 最 大 特征 值 Xmax 对 应 的 特征 向 量 对 齐 ， 则 最 优 步 长 是 过-。 
我 们 要 最 小 化 的 困 数 能 用 二 次 函数 很 好 地 近似 的 情况 下 ，Hessian 的 特征 值 决定 了 学 
习 率 的 量 级 。 

二 阶 导 数 还 可 以 被 用 于 确定 一 个 临界 点 是 否 是 局 部 极 大 点 、 局 部 极 小 点 或 鞍点 。 
回想 一 下 ， 在 临界 点 处 jz) = 0。 而 户 (z) > 0 意味 着 户 (z) 会 随 着 我 们 移 向 右边 
而 增加 ， 移 向 左边 而 减 小 , 也 就 是 六 (z-ej<0 和 jz+el >0 对 足够 小 的 e 成 立 。 
换 名 话说 ， 当 我 们 移 向 右边 ， 和 斜率 开始 指向 右边 的 上 坡 ， 当 我 们 移 向 左边 ， 和 斜率 开 
始 指向 左边 的 上 坡 。 因 此 我 们 得 出 结论 ， 当 亡 (z) =0 且 户 (z) > 0 时 ，z 是 一 个 局 
部 极 小 点 。 同 样 ， 当 j(z) = 0 且 j(z) < 0 时 ，z 是 一 个 局 部 极 大 点 。 这 就 是 所 谓 
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的 二 阶 导数 测试 (second derivative test )。 不 幸 的 是 ， 当 态 (z) = 0 时 测试 是 不 确 
定 的。 在 这 种 情况 下 ，z 可 以 是 一 个 鞍点 或 平坦 区 域 的 一 部 分 。 

在 多 维 情况 下 ， 我 们 需要 检测 函数 的 所 有 二 阶 导 数 。 利 用 Hessian 的 特征 值 分 
解 ， 我 们 可 以 将 二 阶 导 数 测试 扩展 到 多 维 情况 。 在 临界 点 处 (Vaj(z) = 0 )， 我 们 通 
过 检测 Hessian 的 特征 值 来 判断 该 临界 点 是 一 个 局 部 极 大 点 、 局 部 极 小 点 还 是 较 点 。 
当 Hessian 是 正定 的 (所 有 特征 值 都 是 正 的 )， 则 该 临界 点 是 局 部 极 小 点 。 因 为 方 
向 二 阶 导 数 在 任意 方向 都 是 正 的 ， 参 考 单 变 量 的 二 阶 导 数 测试 就 能 得 出 此 结论 。 同 
样 的 ， 当 Hessian 是 负 定 的 《所 有 特征 值 都 是 负 的 )， 这 个 点 就 是 局 部 极 大 点 。 在 多 
维 情况 下 ， 实 际 上 我 们 可 以 找到 确定 该 点 是 否 为 园 点 的 积极 迹象 ( 某 些 情况 下 )。 如 
果 Hessian 的 特征 值 中 至 少 一 个 是 正 的 且 至 少 一 个 是 负 的 ,那么 z 是 六 某 个 横 截 面 
的 局 部 极 大 点 ， 却 是 另 一 个 横 截 面 的 局 部 极 小 点 。 见 图 4.5 中 的 例子 。 最 后 ， 多 维 二 
阶 导 数 测 试 可 能 像 单 变量 版 本 那样 是 不 确定 的 。 当 所 有 非 零 特 征 值 是 同 号 的 且 至 少 
有 一 个 特征 值 是 0 时 ， 这 个 检测 就 是 不 确定 的 。 这 是 因为 单 变 量 的 二 阶 导 数 测试 在 
零 特 征 值 对 应 的 横 截 面 上 是 不 确定 的 。 











图 4.5: 既 有 正 曲 率 又 有 负 曲 率 的 鞍点 。 示 例 中 的 函数 是 f(z) = 好 - 妇 。 函 数 沿 zi 轴 向 上 弯 
曲 。zi 轴 是 Hessian 的 一 个 特征 向 量 ， 并 且 具 有 正 特征 值 。 函 数 沿 zz 轴 向 下 弯曲 。 该 方向 对 应 
于 Hessian 负 特 征 值 的 特征 向 量 。 名 称 “ 贡 点 ” 源 自 该 处 函数 的 鞍 状 形状 。 这 是 具有 壕 点 函数 的 典 
型 示例 。 维 度 多 于 一 个 时 ， 贰 点 不 一 定 要 具有 0 特征 值 : 仅 需 要 同时 具有 正 特 征 值 和 负 特 征 值 。 我 
们 可 以 想象 这 样 一 个 鞍点 (具有 正 负 特 征 值 ) 在 一 个 横 截 面 内 是 局 部 极 大 点 ， 而 在 另 一 个 横 截 面 
内 是 局 部 极 小 点 。 











































































































多 维 情况 下 ， 单 个 点 处 每 个 方向 上 的 二 阶 导 数 是 不 同 。Hessian 的 条 件数 衡量 
这 些 二 阶 导数 的 变化 范围 。 当 Hessian 的 条 件数 很 差 时 ， 梯 度 下 降 法 也 会 表现 得 很 


43 基于 梯度 的 优化 方法 81 


差 。 这 是 因为 一 个 方向 上 的 导数 增加 得 很 快 ， 而 在 另 一 个 方向 上 增加 得 很 慢 。 梯 度 
下 降 不 知道 导数 的 这 种 变化 ， 所 以 它 不 知道 应 该 优先 探索 导数 长 期 为 负 的 方向 。 病 
态 条 件 也 导致 很 难 选择 合适 的 步 长 。 步 长 必须 足够 小 ， 以 免 冲 过 最 小 而 向 具有 较 强 
正 曲 率 的 方向 上 升 。 这 通常 意味 着 步 长 太 小 ， 以 致 于 在 其 他 较 小 曲率 的 方向 上 进展 
不 明显 。 见 图 4.6 的 例子 。 





30 
一 30 -20 -10 0 10 20 
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图 4.6: 梯度 下 降 无 法 利用 包含 在 Hessian 和 矩阵 中 的 曲率 信息 。 这 里 我 们 使 用 梯度 下 降 来 最 小 
化 Hessian 抢 阵 条 件数 为 5 的 二 次 函数 /zj)。 这 意味 着 最 大 曲率 方向 具有 比 最 小 曲率 方向 多 五 倍 
的 曲率 。 在 这 种 情况 下 ， 最 大 曲率 在 [1 1 ”方向 上 ， 最 小 曲率 在 [1, -可 ”方向 上 。 红 线 表示 梯度 
下 降 的 路 径 。 这 个 非常 细 长 的 二 次 函数 类 似 一 个 长 峡谷 。 梯 度 下 降 把 时 间 浪 费 于 在 峡谷 壁 反复 下 
降 ， 因 为 它们 是 最 陡峭 的 特征 。 由 于 步 长 有 点 大 ， 有 超过 函数 底部 的 趋势 ， 因 此 需要 在 下 一 次 迭代 
时 在 对 面 的 峡谷 壁 下 降 。 与 指向 该 方向 的 特征 向 量 对 应 的 Hessian 的 大 的 正 特 征 值 表 示 该 方向 上 
的 导数 快速 增加 ， 因 此 基于 Hessian 的 优化 算法 可 以 预测 ， 在 此 情况 下 最 陡峭 方向 实际 上 不 是 有 
前 途 的 搜索 方向 。 

























































































我 们 可 以 使 用 Hessian 矩阵 的 信息 来 指导 搜索 ， 以 解决 这 个 问题 。 其 中 最 简单 

的 方法 是 牛顿 法 ( Newton's method )。 和 牛顿 法 基于 一 个 二 阶 泰勒 展开 来 近似 zto) 附 

jg 四 = Ja)+(z- ao)jTVaf(lzo)T 3- am 三 三]zo)lz- ao)， (41 
接着 通过 计算 ， 我 们 可 以 得 到 这 个 函数 的 临界 点 : 

太一 20 一 百 ( 门 (zt0)-TVaj(zt0)， (4.12) 

当 是 一 个 正定 二 次 函数 时 ， 牛 顿 法 只 要 应 用 一 次 式 (4.12) 就 能 直接 路 到 函数 的 最 

小 点 。 如 果 地 不 是 一 个 真正 二 次 但 能 在 局 部 近似 为 正定 二 次 ， 牛 顿 法 则 需要 多 次 和 迭 
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代 应 用 式 (4.12) 。 和 迭代 地 更 新 近似 函数 和 跳 到 近似 函数 的 最 小 点 可 以 比 梯度 下 降 更 
快 地 到 达 临 界 点 。 这 在 接近 局 部 极 小 点 时 是 一 个 特别 有 用 的 性 质 ， 但 是 在 鞍点 附近 
是 有 害 的 。 如 式 (8.2.3) 所 讨论 的 ， 洒 附近 的 临界 点 是 最 小 点 〈Hessian 的 所 有 特征 值 
都 是 正 的 ) 时 牛顿 法 才 适 用 ， 而 梯度 下 降 不 会 被 吸引 到 贡 点 (除非 梯度 指向 鞍点 )。 

仅 使 用 梯度 信息 的 优化 算法 被 称 为 一 阶 优化 算法 (frst-order optimization al- 
gorithms)， 如 梯度 下 降 。 使 用 Hessian 和 矩阵 的 优化 算法 被 称 为 二 阶 最 优化 算法 
(second-order optimization algorithms)(Nocedal and Wright, 2006)， 如 牛顿 法 。 

在 本 书 大 多 数 上 下 文中 使 用 的 优化 算法 适用 于 各 种 各 样 的 函数 ， 但 几乎 都 没有 
保证 。 因 为 在 深度 学 习 中 使 用 的 函数 族 是 相当 复杂 的 ， 所 以 深度 学 习 算 法 往往 缺乏 
保证 。 在 许多 其 他 领域 ， 优 化 的 主要 方法 是 为 有 限 的 函数 族 设计 优化 算法 。 

在 深度 学 习 的 背景 下 , 限制 函数 满足 Lipschitz 连续 (Lipschitz continuous ) 或 
其 导数 Lipschitz 连 续 可 以 获得 一 些 保证 。Lipschitz 连续 函数 的 变化 速度 以 Lipschitz 
常数 ( Lipschitz constant ) C 为 界 : 




















Yz Yy | 四 一 AgE CIz 一 圳 > (4.13) 





这 个 属性 允许 我 们 量化 我 们 的 假设 一 一 梯度 下 降 等 算法 导致 的 输入 的 微小 变化 将 使 
输出 只 产生 微小 变化 ， 因 此 是 很 有 用 的 。Lipschitz 连续 性 也 是 相当 弱 的 约束 ， 并 
且 深 度 学 习 中 很 多 优化 问题 经 过 相对 较 小 的 修改 后 就 能 变 得 Lipschitz 连续 。 

最 成 功 的 特定 优化 领域 或 许 是 凸 优化 (Convex optimization )。 凸 优化 通过 更 强 
的 限制 提供 更 多 的 保证 。 巴 优化 算法 只 对 凸 函 数 适 用 ， 即 Hessian 处 处 半 正 定 的 函 
数 。 因 为 这 些 函 数 没有 鞍点 而 且 其 所 有 局 部 极 小 点 必然 是 全 局 最 小 点 ， 所 以 表现 很 
好 。 然 而 ， 深 度 学 习 中 的 大 多 数 问题 都 难以 表示 成 凸 优化 的 形式 。 凸 优化 仅 用 作 一 
些 深 度 学 习 算 法 的 子 程序 。 凸 优化 中 的 分 析 思 路 对 证 明 深 度 学 习 算 法 的 收敛 性 非常 
有 用 ， 然 而 一 般 来 说 ， 深 度 学 习 背 景 下 凸 优化 的 重要 性 大 大 减少 。 有 关 凸 优化 的 详 
细 信 息 ， 详 见 Boyd and Vandenberghe (2004) 或 Rockafellar (1997)。 

















4.4 约束 优化 


有 时 候 ,， 在 z 的 所 有 可 能 值 下 最 大 化 或 最 小 化 一 个 函数 /(z) 不 是 我 们 所 希望 
的 。 相 反 ， 我 们 可 能 希望 在 z 的 某 些 集合 S 中 找 /(z) 的 最 大 值 或 最 小 值 。 这 被 称 
为 约束 优化 〈constrained optimization )。 在 约束 优化 术语 中 , 集合 $ 内 的 点 被 称 
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为 可 行 〈feasible ) 点 。 

我 们 常常 希望 找到 在 某 种 意义 上 小 的 解 。 针 对 这 种 情况 下 的 常见 方法 是 强加 一 
个 范 数 约束 ， 如 zl| < 1。 

约束 优化 的 一 个 简单 方法 是 将 约束 考虑 在 内 后 简单 地 对 梯度 下 降 进 行 修改 。 如 
果 我 们 使 用 一 个 小 的 恒定 步 长 ,我们 可 以 先 取 梯度 下 降 的 单 步 结果 ， 然 后 将 结果 投 
影 回 S。 如 果 我 们 使 用 线 搜索 , 我 们 只 能 在 步 长 为 e 范围 内 搜索 可 行 的 新 z 点 ,或 者 
我 们 可 以 将 线 上 的 每 个 点 投影 到 约束 区 域 。 如 果 可 能 的 话 ， 在 梯度 下 降 或 线 搜索 前 
将 梯度 投影 到 可 行 域 的 切 空 间 会 更 高 效 (Rosen, 1960)。 

一 个 更 复杂 的 方法 是 设计 一 个 不 同 的 、 无 约束 的 优化 问题 ， 其 解 可 以 转化 成 原 
始 约束 优化 问题 的 解 。 例 如 , 我 们 要 在 ze 耿 2 中 最 小 化 fm， 其 中 zz 约束 为 具有 单 
位 了 2 范 数 。 我 们 可 以 关于 0 最 小 化 9g(0) = jcos bsinbl )， 最 后 返回 [cos 0, sin g] 
作为 原 问 题 的 解 。 这 种 方法 需要 创造 性 ; 优化 问题 之 间 的 转换 必须 专门 根据 我 们 遇 
到 的 每 一 种 情况 进行 设计 。 

Karush-Kuhn-Tucker (KKT ) 方法 ?是 针对 约束 优化 非常 通用 的 解决 方案 。 
为 介绍 KKT 方 法 ， 我 们 引入 一 个 称 为 广义 Lagrangian ( generalized Lagrangian ) 
或 广义 Lagrange 函数 (generalized Lagrange function ) 的 新 函数 。 

为 了 定义 Lagrangian， 我 们 先 要 通过 等 式 和 不 等 式 的 形式 描述 S。 我 们 大 望 通 
过 和 mn 个 函数 9 和 个 函数 ho) 描述 S， 那 么 $ 可 以 表示 为 S= {fz|Vig(z) = 
0 and v7 思 jz)(z) < 0}。 其 中 涉及 909) 的 等 式 称 为 等 式 约 束 (equality constraint )， 
涉及 2) 的 不 等 式 称 为 不等式 约束 (inequality constraint )。 

我 们 为 每 个 约束 引入 新 的 变量 X 和 aj ， 这 些 新 变量 被 称 为 KKT 乘 子 。 广 义 
Lagrangian 可 以 如 下 定义 : 





























7(z, NA, a) = /zz) 十 2 XigCG(z) 十 oojP)(m)， (4.14) 








现在 ， 我 们 可 以 通过 优化 无 约束 的 广义 Lagrangian 解决 约束 最 小 化 问题 。 只 要 
存在 至 少 一 个 可 行 点 且 jz) 不 允许 取 co， 那 么 


min max Iax 卫 (zZ, 入 ,Qi) (4.15) 
人 入 ”CQ>0 





2KKT 方法 是 Lagrange 乘 子 法 ( 只 人 允许 等 式 约 束 ) 的 推广 。 
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泪 


与 如 下 天 数 有 相同 的 最 优 目 标 机 数 值 和 最 优点 集 z 


mi 几 ) (4.16) 
这 是 因为 当 约 柬 满足 时 ， 
Iax Za 入 ,C) = 帮 zD)， (4.17) 
而 违反 任意 约束 时 ， 
Inax InaX (2 入 , Q) = co. (4.18) 


入 QQC 之 
这 些 性 质保 证 不 可 行 点 不 会 是 最 佳 的 ， 并 且 可 行 点 范围 内 的 最 优点 不 变 。 


要 解决 约束 最 大 化 问题 ， 我 们 可 以 构造 -/(z) 的 广义 Lagrange 函数 ， 从 而 导 
致 以 下 优化 问题 : 

















.0 帮 () 
和 jz) 十 泡 和 Xi9 (2) 十 5 ojR7 (2D). (4.19) 
5 





我 们 也 可 将 其 转换 为 在 外 层 最 大 化 的 问题 : 
Iax min _ 记 Duf(a Z) 十 2 和 XigG(z 2 oojhn)(z)， (4.20) 


等 式 约束 对 应 项 的 符号 并 不 重要 ; 因为 优化 可 以 自由 选择 每 个 X; 的 符号 ， 我 们 可 以 
随意 将 其 定义 为 加 法 或 减法 。 

不 等 式 约束 特别 有 趣 。 如 果 ja(z*) = 0， 我 们 就 说 这 个 约束 no(z) 是 活路 
(active) 的 。 如 果 约 东 不 是 活跃 的 ， 则 有 该 约束 的 问题 的 解 与 去 掉 该 约束 的 问题 的 
解 至 少 存在 一 个 相同 的 局 部 解 。 一 个 不 活跃 约束 有 可 能 排除 其 他 解 。 例 如 ， 整 个 区 
域 (代价 相等 的 宽 平 区 域 ) 都 是 全 局 最 优点 的 凸 问题 可 能 因 约 束 消去 其 中 的 某 个 子 
区 域 ， 或 在 非 凸 问题 的 情况 下 ， 收 和 敛 时 不 活跃 的 约束 可 能 排除 了 较 好 的 局 部 驻 点 。 
然而 ， 无 论 不 活跃 的 约束 是 否 被 包括 在 内 ， 收 敛 时 找到 的 点 仍然 是 一 个 驻 点 。 因 为 

一 个 不 活跃 的 约束 凡 9 必 有 负 值 ， 那 么 min max ax (2 和 ,a) 中 的 a = 0。 因 
此 ， 我 们 可 以 观察 到 在 该 解 中 a @ Maz) = 0。 换 和 句 话说 ， 对 于 所 有 的 1， as > 0 或 
AGO)(z) < 0 在 收敛 时 必 有 一 个 是 活跃 的 。 为 了 获得 关于 这 个 想法 的 一 些 直观 解释 ， 
我 们 可 以 说 这 个 解 是 由 不 等 式 强加 的 边界 ， 我 们 必须 通过 对 应 的 KKT 乘 子 影响 z 
的 解 ， 或 者 不 等 式 对 解 没有 影响 ， 我 们 则 归 零 KKT 乘 子 。 
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我 们 可 以 使 用 一 组 简单 的 性 质 来 描述 约束 优化 问题 的 最 优点 。 这 些 性 质 称 
为 Karush-Kuhn-Tucker (KKT ) 条 件 (Karush, 1939; Kuhn and Tucker, 1951)。 
这 些 是 确定 一 个 点 是 最 优点 的 必要 条 件 ， 但 不 一 定 是 充分 条 件 。 这 些 条 件 是 : 








e 广义 Lagrangian 的 梯度 为 零 。 
e。 所 有 关于 z 和 KKT 乘 子 的 约束 都 满足 。 
。 不 等 式 约 束 显 示 的 “互补 松弛 性 ”: wa @ Poz) = 0。 








有 关 KKT 方法 的 详细 信息 ， 请 参阅 Nocedal and Wright (2006)。 


4.5 实例 : 线性 最 小 二 乘 


假设 我 们 希望 找到 最 小 化 下 式 的 = 值 
工 
jz) = 可 4z 一 2: (4.21) 


存在 专门 的 线性 代数 算法 能 够 高 效 地 解决 这 个 问题 ; 但 是 ， 我 们 也 可 以 探索 如 何 使 
用 基于 梯度 的 优化 来 解决 这 个 问题 ， 这 可 以 作为 这 些 技术 是 如 何 工 作 的 一 个 简单 例 
隆 和 

首先 ， 我 们 计算 梯度 : 


Vaejf(m=4I(4z- 中 =4 4z-470. (4.22) 





然后 ,我 们 可 以 采用 小 的 步 长 ,并 按照 这 个 梯度 下 降 。 见 算法 4.1 中 的 详细 信息 。 


算法 4.1 从 任意 点 z 开始 ， 使 用 梯度 下 降 关 于 z 最 小 化 flz) = 圳 4z- 串 ; 的 算 
法 。 





将 步 长 (ej) 和 容 差 (5) 设 为 小 的 正 数 。 
while | 4 4z- 4 咱 。 > 5 do 
和 人 久 2 一 6 (4 4z- 4 70 


end while 








我 们 也 可 以 使 用 牛顿 法 解决 这 个 问题 。 因 为 在 这 个 情况 下 ， 真 实 函 数 是 二 次 的 ， 
牛顿 法 所 用 的 二 次 近似 是 精确 的 ， 该 算法 会 在 一 步 后 收敛 到 全 局 最 小 点 。 
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现在 假设 我 们 希望 最 小 化 同样 的 丽 数 ， 但 受 zz < 1 的 约束 。 要 做 到 这 一 点 ， 
我 们 引入 Lagrangian 
F(z 和 A) = jz) 二 AZz zz 一 1). (4.23) 
现在 ， 我 们 解决 以 下 问题 
min Ia 二 (2 人) (4.24) 





我 们 可 以 用 Moore-Penrose 伪 道 : z= 47+0 找到 无 约束 最 小 二 乘 问题 的 最 小 范 
数 解 。 如 果 这 一 点 是 可 行 , 那么 这 也 是 约束 问题 的 解 。 否 则 ,我 们 必须 找到 约束 是 活 
跃 的 解 。 关 于 z 对 Lagrangian 微分 ， 我 们 得 到 方程 


414z- 4 0 十 2Xz=0. (4.25) 
这 就 告诉 我 们 ， 该 解 的 形式 将 会 是 
zZ 一 (4 4+2XD 站 -147 0. (4.26) 


和 的 选择 必须 使 结果 服从 约束 。 我 们 可 以 关于 和 进行 梯度 上 升 找到 这 个 值 。 为 了 做 
到 这 一 点 ， 观 察 
O 


荆 玛 -一 二 
ZL A) 2 和 一 工 . (4.27) 


当 z 的 范 数 超过 1 时 ， 该 导数 是 正 的 ， 所 以 为 了 跟随 导数 上 坡 并 相对 入 增 
加 Lagrangian， 我 们 需要 增加 入 。 因 为 ziz 的 惩罚 系数 增加 了 ， 求 解 关于 z 的 
线性 方程 现在 将 得 到 具有 较 小 范 数 的 解 。 求 解 线性 方程 和 调整 和 的 过 程 将 一 直 持续 
到 z 具有 正确 的 范 数 并 且 关 于 入 的 导数 是 0。 

本 章 总 结 了 开发 机 器 学 习 算 法 所 需 的 数学 基础 。 现 在 ， 我 们 已 经 准备 好 建立 和 
分 析 一 些 成 熟 的 学 习 系 统 。 
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深度 学 习 是 机 器 学 习 的 一 个 特定 分 支 。 我 们 要 想 充分 理解 深度 学 习 , 必须 对 机 器 
学 习 的 基本 原理 有 深刻 的 理解 。 本 章 将 探讨 贯穿 本 书 其 余部 分 的 一 些 机 器 学 习 重 要 
原理 。 我 们 建议 新 手 读者 或 是 希望 更 全 面 了 解 的 读者 参考 一 些 更 全 面 覆 盖 基 础 知识 
的 机 器 学 习 参 考 书 ， 例 如 Murphy (2012) 或 者 Bishop (2006)。 如 果 你 已 经 熟知 机 器 
学 习 ， 可 以 跳 过 前 面 的 部 分 ， 前 往 第 5.11 节 。 第 5.11 节 涵盖 了 一 些 传统 机 器 学 习 技 
术 观 点 ， 这 些 技术 对 深度 学 习 的 发 展 有 着 次 远 影 响 。 

首先 ,我 们 将 介绍 学 习 算 法 的 定义 ， 并 介绍 一 个 简单 的 示例 : 线性 回归 算法 。 接 
下 来 ,我 们 会 探讨 拟 合 训练 数据 与 寻找 能 够 泛 化 到 新 数据 的 模式 存在 哪些 不 同 的 挑 
战 。 大 部 分 机 器 学 习 算法 都 有 起 参数 ( 必须 在 学 习 算 法 外 设 定 ); 我 们 将 探讨 如 何 使 
用 额外 的 数据 设置 超 参数 。 机 器 学 习 本 质 上 属于 应 用 统计 学 ， 更 多 地 关注 于 如 何 用 
计算 机 统计 地 估计 复杂 函数 ， 不 太 关注 为 这 些 函 数 提 供 置 信 区 间 ; 因此 我 们 会 探讨 
两 种 统计 学 的 主要 方法 : 频率 派 估计 和 贝 叶 斯 推断 。 大 部 分 机 器 学 习 算 法 可 以 分 成 监 
督学 习 和 无 监督 学 习 两 类 ; 我 们 将 探讨 不 同 的 分 类 ， 并 为 每 类 提供 一 些 简单 的 机 器 
学 习 算 法 作为 示例 。 大 部 分 深度 学 习 算 法 都 是 基于 被 称 为 随机 梯度 下 降 的 算法 求解 
的 。 我 们 将 介绍 如 何 组 合 不 同 的 算法 部 分 ， 例 如 优化 算法 、 代 价 函 数 、 模 型 和 数据 
集 ， 来 建立 一 个 机 器 学 习 算 法 。 最 后 在 第 5.11 节 ， 我 们 会 介绍 一 些 限 制 传统 机 器 学 
习 泛 化 能 力 的 因素 。 这 些 挑战 促进 了 解决 这 些 问 题 的 深度 学 习 算 法 的 发 展 。 





























5.1 学习 算 法 


机 器 学 习 算 法 是 一 种 能 够 从 数据 中 学 习 的 算法 。 然 而 , 我们 所 谓 的 “学 习 ” 是 什 
么 意思 呢 ? Mitchell (1997) 提供 了 一 个 简洁 的 定义 :“ 对 于 某 类 任务 人 和 性 能 度量 
尸 ， 一 个 计算 机 程序 被 认为 可 以 从 经 验 互 中 学 习 是 指 ， 通 过 经 验 瑟 改进 后 ， 它 在 任 
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务工 上 由 性 能 度量 尸 衡量 的 性 能 有 所 提升 。” 经 验 五 ， 任 务 全 和 性 能 度量 尸 的 定 
义 范围 非常 宽广 ， 在 本 书 中 我 们 并 不 会 试图 去 解释 这 些 定义 的 具体 意义 。 相 反 ， 我 
们 会 在 接 下 来 的 章节 中 提供 直观 的 解释 和 示例 来 介绍 不 同 的 任务 、 性 能 度量 和 经 验 ， 
这 些 将 被 用 来 构建 机 融 学 习 算 法 。 











5.1.1 任务 了 


机 器 学 习 可 以 让 我 们 解决 一 些 人 为 设计 和 使 用 确定 性 程序 很 难 解决 的 问题 。 从 
科学 和 哲学 的 角度 来 看 ， 机 顺 学 习 受 到 关注 是 因为 提高 我 们 对 机 天 学 习 的 认识 需要 
提高 我 们 对 智能 背后 原理 的 理解 。 

从 “任务 ”的 相对 正式 的 定义 上 说 ， 学 习 过 程 本 身 不 能 算是 任务 。 学 习 是 我 们 所 
谓 的 获取 完成 任务 的 能 力 。 例 如 ， 我 们 的 目标 是 使 机 器 人 能 够 行走 ， 那 么 行走 便 是 
任务 。 我 们 可 以 编程 让 机 器 人 学 会 如 何 行走 ， 或 者 可 以 人 工 编写 特定 的 指令 来 指导 
机 器 人 如 何 行走 。 

通常 机 噩 学 习 任务 定义 为 机 器 学 习 系 统 应 该 如 何 处 理 样 本 (example )。 样 本 是 
指 我 们 从 某 些 希望 机 器 学 习 系 统 处 理 的 对 象 或 事件 中 收集 到 的 已 经 量化 的 特征 
(feature ) 的 集合 。 我 们 通常 会 将 样本 表示 成 一 个 向 量 ze 陈 "， 其 中 向 量 的 每 一 个 元 
素 w% 是 一 个 特征 。 例 如 ， 一 张 图 片 的 特征 通常 是 指 这 张 图 片 的 像素 值 。 

机 融 学 习 可 以 解决 很 多 类 型 的 任务 。 一 些 非常 常见 的 机 器 学 习 任务 列举 如 下 : 














。 分类: 在 这 类 任务 中 ， 计 算 机 程序 需要 指定 某 些 输入 属于 8& 类 中 的 哪 一 类 。 
为 了 完成 这 个 任务 ， 学 习 算 法 通 带 会 返回 一 个 函数 厂 : 了 "一 {1, ,1}。 当 
= jz) 时 ,模型 将 向 量 z 所 代表 的 输入 分 类 到 数字 码 y 所 代表 的 类 别 。 还 有 
一 些 其 他 的 分 类 问题 ， 例 如 ，/7 输出 的 是 不 同类 别 的 概率 分 布 。 分 类 任务 中 有 
一 个 任务 是 对 象 识 别 ， 其 中 输入 是 图 片 〈 通 常 由 一 组 像素 亮度 值 表示 )， 输 出 
是 表示 图 片 物体 的 数字 码 。 例 如 ，Willow Garage PR2 机 器 人 能 像 服务 员 一 样 
识别 不 同 饮 料 ， 并 送 给 点 餐 的 顾客 (Goodfellow et ol., 2010)。 目 前 ， 最 好 的 对 
象 识 别 工 作 正 是 基于 深度 学 习 的 (Krizhevsky et al., 2012a; Ioffe and Szegedy， 
2015)。 对 象 识别 同时 也 是 计算 机 识别 人 脸 的 基本 技术 ， 可 用 于 标记 相片 合辑 中 
的 人 脸 (Taigman et oa/., 2014) ， 有 助 于 计算 机 更 自然 地 与 用 户 交 互 。 


。 输 入 缺失 分 类 : 当 输 入 向 量 的 每 个 度量 不 被 保证 的 时 候 ， 分 类 问题 将 会 变 得 更 
有 挑战 性 。 为 了 解决 分 类 任务 ， 学 习 算 法 只 需要 定义 一 个 从 输入 向 量 映 射 到 答 
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出 类 别 的 函数 。 当 一 些 输入 可 能 丢失 时 ， 学 习 算 法 必须 学 习 一 组 丽 数 ， 而 不 是 
单个 分 类 函数 。 每 个 函数 对 应 着 分 类 具有 不 同 缺 失 输入 子 集 的 z。 这 种 情况 在 
医疗 诊断 中 经 常 出 现 ， 因 为 很 多 类 型 的 医学 测试 是 昂贵 的 ， 对 身体 有 害 的 。 有 
效 地 定义 这 样 一 个 大 集合 函数 的 方法 是 学 习 所 有 相关 变量 的 概率 分 布 ， 然 后 通 
过 边缘 化 缺失 变量 来 解决 分 类 任务 。 使 用 ”个 输入 变量 ， 我 们 现在 可 以 获得 每 
个 可 能 的 缺失 输入 集合 所 需 的 所 有 2” 个 不 同 的 分 类 函 数 ， 但 是 计算 机 程序 仅 
需要 学 习 一 个 描述 联合 概率 分 布 的 函数 。 人 参见 Goodfellow et o/. (2013d) 了 解 
以 这 种 方式 将 深度 概率 模型 应 用 于 这 类 任务 的 示例 。 本 节 中 描述 的 许多 其 他 任 
务 也 可 以 推广 到 缺失 输入 的 情况 ; 缺失 输入 分 类 只 是 机 器 学 习 能 够 解决 的 问题 
的 一 个 示例 。 


回归 : 在 这 类 任务 中 ， 计 算 机 程序 需要 对 给 定 输入 预测 数值 。 为 了 解决 这 个 任 
务 ， 学 习 算 法 需要 输出 困 数 广 : 民 " 一 及 。 除 了 返回 结果 的 形式 不 一 样 外 ， 这 类 
问题 和 分 类 问题 是 很 像 的 。 这 类 任务 的 一 个 示例 是 预测 投保 人 的 索赔 金额 (用 
于 设置 保险 费 )， 或 者 预测 证 券 未 来 的 价格 。 这 类 预测 也 用 在 算法 交易 中 。 


转录 : 这 类 任务 中 ， 机 器 学 习 系 统 观 测 一 些 相对 非 结构 化 表示 的 数据 ， 并 转 
录 信 息 为 离散 的 文本 形式 。 例 如 ， 光 学 字符 识别 要 求 计 算 机 程序 根据 文本 图 片 
返回 文字 序列 (ASCII 码 或 者 Unicode 码 )。 谷 歌 街景 以 这 种 方式 使 用 深度 学 
习 处 理 街道 编号 (Goodfellow et al., 2014d)。 另 一 个 例子 是 语音 识别 ， 计 算 机 
程序 输入 一 段 音 频 波形 ， 输 出 一 序列 音频 记录 中 所 说 的 字符 或 单词 ID 的 编码 。 
深度 学 习 是 现代 语音 识别 系统 的 重要 组 成 部 分 ， 被 各 大 公司 广泛 使 用 ， 包 括 微 
软 ，IBM 和 谷歌 (Hinton et a/., 2012b)。 

















机 器 翻译 : 在 机 顺 翻 译 任务 中 ， 输 入 是 一 种 语言 的 符号 序列 ， 计 算 机 程序 必须 
将 其 转化 成 另 一 种 语言 的 符号 序列 。 这 通常 适用 于 自然 语言 ， 如 将 英语 译 成 
法 语 。 最 近 ， 深 度 学 习 已 经 开始 在 这 个 任务 上 产生 重要 影响 (Sutskever et ol.， 
2014; Bahdanau et al.，2015)。 


结构 化 输出 : 结构 化 输出 任务 的 输出 是 向 量 或 者 其 他 包含 多 个 值 的 数据 结构 ， 
并 且 构 成 输出 的 这 些 不 同 元 素 间 具 有 重要 关系 。 这 是 一 个 很 大 的 范畴 ， 包 括 上 
述 转录 任务 和 翻译 任务 在 内 的 很 多 其 他 任务 。 例 如 语法 分 析 一 一 映射 自然 语言 
句子 到 语法 结构 树 ， 并 标记 树 的 节点 为 动词 、 名 词 、 副 词 等 等 。 参 考 Collobert 
(2011) 将 深度 学 习 应 用 到 语法 分 析 的 示例 。 另 一 个 例子 是 图 像 的 像素 级 分 割 ， 
将 每 一 个 像素 分 配 到 特定 类 别 。 例 如 ， 深 度 学 习 可 用 于 标注 航拍 照片 中 的 道路 
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位 置 (Mnih and Hinton, 2010)。 在 这 些 标 注 型 的 任务 中 ， 输 出 的 结构 形式 不 
需要 和 输入 尽 可 能 相似 。 例 如 ， 在 为 图 片 添加 描述 的 任务 中 ， 计 算 机 程序 观察 
到 一 幅 图 ， 输 出 描述 这 幅 图 的 自然 语言 句子 (Kiros et al., 2014a,b; Mao et al1.， 
2014; Vinyals et ul/., 2015b; Donahue el al., 2014; 上 arpathy and Li 2015; Fang 
et ul, 2015; Xu et al., 2015)。 这 类 任务 被 称 为 结构 化 输出 任务 是 因为 输出 值 之 
间 内 部 紧密 相关 。 例 如 ， 为 图 片 添加 标题 的 程序 输出 的 单词 必须 组 合成 一 个 通 
顺 的 句子 。 





异常 检测 : 在 这 类 任务 中 ， 计 算 机 程序 在 一 组 事件 或 对 象 中 筛选 ， 并 标记 不 正 
常 或 非典 型 的 个 体 。 异 常 检 测 任务 的 一 个 示例 是 信用 卡其 诈 检 测 。 通 过 对 你 的 
购买 习惯 建 模 ， 信 用 卡 公司 可 以 检测 到 你 的 卡 是 否 被 滥用 。 如 果 守 贼 窃取 你 的 
信用 卡 或 信用 卡 信息 ， 窃 贼 采购 物品 的 分 布 通常 和 你 的 不 同 。 当 该 卡 发 生 了 不 
正常 的 购买 行为 时 ， 信 用 卡 公司 可 以 尽快 冻结 该 卡 以 防 坎 诈 。 参 考 Chandola 
et ol. (2009) 了 解 欺诈 检 测 方法 。 


合成 和 采样 : 在 这 类 任务 中 ， 机 器 学 习 程 序 生成 一 些 和 训练 数据 相似 的 新 样本 。 
通过 机 器 学 习 ， 合 成 和 采样 可 能 在 媒体 应 用 中 非常 有 用 ， 可 以 避免 艺术 家 大 量 
昂贵 或 者 乏味 费时 的 手动 工作 。 例 如 ， 视 频 游 戏 可 以 自动 生成 大 型 物体 或 风景 
的 纹理 ， 而 不 是 让 艺术 家 手动 标记 每 个 像素 (Luo et ww., 2013)。 在 某 些 情况 下 ， 
我 们 希望 采样 或 合成 过 程 可 以 根据 给 定 的 输入 生成 一 些 特定 类 型 的 输出 。 例 如 ， 
在 语音 合成 任务 中 ， 我 们 提供 书写 的 句子 ， 要 求 程 序 输出 这 个 句子 语音 的 音频 
波形 。 这 是 一 类 结构 化 输出 任务 ， 但 是 多 了 每 个 输入 并 非 上 只 有 一 个 正确 输出 的 
条 件 ， 并 且 我 们 明确 希望 输出 有 很 多 变化 ， 这 可 以 使 结果 看 上 去 更 加 自然 和 真 
实 。 











缺失 值 填补 : 在 这 类 任务 中 ， 机 噩 学 习 算 法 给 定 一 个 新 样本 ze 及 "，z 中 某 些 
元 素 zi 缺失 。 算 法 必须 填补 这 些 缺 失 值 。 





去 噪 : 在 这 类 任务 中 ， 机 天 学 习 算 法 的 输入 是 ， 干 净 样 本 ze 到 ”经 过 未 知 损 
坏 过 程 后 得 到 的 损坏 样本 E 及 "。 算 法 根据 损坏 后 的 样本 ?z 预测 干净 的 样本 
Z， 或 者 更 一 般 地 预测 条 件 概率 分 布 ptz | 实 。 


密度 估计 或 概率 质量 函数 估计 : 在 密度 估计 问题 中 ， 机 器 学 习 算法 学 习 函 数 
Dmodel : 了 及 ”一 及 ， 其 中 Drmodel(Z) 可 以 解释 成 样本 采样 空间 的 概率 密度 郴 数 人 如 
果 x 是 连续 的 ) 或 者 概率 质量 函数 ( 如 果 x 是 离散 的 )。 要 做 好 这 样 的 任务 
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〈 当 我 们 讨论 性 能 度量 已 时, 我们 会 明确 定义 任务 是 什么 )， 算 法 需要 学 习 观 测 
到 的 数据 的 结构 。 算 法 必须 知道 什么 情况 下 样本 聚集 出 现 ， 什 么 情况 下 不 太 可 
能 出 现 。 以 上 描述 的 大 多 数 任务 都 要 求学 习 算法 至 少 能 隐 式 地 捕获 概率 分 布 的 
结构 。 密 度 佑 计 可 以 让 我 们 显 式 地 捕获 该 分 布 。 原 则 上 ， 我 们 可 以 在 该 分 布 上 
计算 以 便 解 决 其 他 任务 。 例 如 ， 如 果 我 们 通过 密度 估计 得 到 了 概率 分 布 (四 ， 
我 们 可 以 用 该 分 布 解决 缺失 值 填补 任务 。 如 果 z; 的 值 是 缺失 的 , 但 是 其 他 的 变 
量 值 =_, 已 知 ， 那 么 我 们 可 以 得 到 条 件 概 率 分 布 p(zi | Zi。 实际 情况 中 ， 密 
度 佑 计 并 不 能 够 解决 所 有 这 类 问题 ， 因 为 在 很 多 情况 下 p(z) 是 难以 计算 的 。 

















当然 ， 还 有 很 多 其 他 同类 型 或 其 他 类 型 的 任务 。 这 里 我 们 列举 的 任务 类 型 只 是 
用 来 介绍 机 噩 学 习 可 以 做 哪些 任务 ， 并 非 严格 地 定义 机 天 学 习 任 务 分 类 。 








5.1.2 ”性 能 度量 己 





为 了 评估 机 器 学 习 算法 的 能 力 ， 我 们 必须 设计 其 性 能 的 定量 度量 。 通 常 性 能 度 
量 尸 是 特定 于 系统 执行 的 任务 了 而 言 的 。 

对 于 诸如 分 类 、 缺 失 输 入 分 类 和 转录 任务 ， 我 们 通常 度量 模型 的 准确 率 〈accu- 
racy )。 准 确 率 是 指 该 模型 输出 正确 结果 的 样本 比率 。 我 们 也 可 以 通过 错误 率 (error 
rate ) 得 到 相同 的 信息 。 错 误 率 是 指 该 模型 输出 错误 结果 的 样本 比率 。 我 们 通常 把 错 
误 率 称 为 0 - 1 损失 的 期 望 。 在 一 个 特定 的 样本 上 ， 如 果 结 果 是 对 的 ,那么 0- 1 损 
失 是 0; 否则 是 1。 但 是 对 于 密度 佑 计 这 类 任务 而 言 ， 度 量 准 确 率 ， 错 误 率 或 者 其 他 
类 型 的 0 - 1 损失 是 没有 意义 的 。 反 之 ,我们 必须 使 用 不 同 的 性 能 度量 ， 使 模型 对 每 
个 样本 都 输出 一 个 连续 数值 的 得 分 。 最 常用 的 方法 是 输出 模型 在 一 些 样本 上 概率 对 
数 的 平均 值 。 

通常 ， 我 们 会 更 加 关注 机 需 学 习 算 法 在 未 观测 数据 上 的 性 能 如 何 ， 因 为 这 将 决 
定 其 在 实际 应 用 中 的 性 能 。 因 此 ,我 们 使 用 测试 集 (test set ) 数据 来 评估 系统 性 能 ， 
将 其 与 训练 机 融 学 习 系统 的 训练 集 数据 分 开 。 

性 能 度量 的 选择 或 许 看 上 去 简单 且 客 观 ， 但 是 选择 一 个 与 系统 理想 表现 对 应 
的 性 能 度量 通 稼 是 很 难 的 。 

在 某 些 情况 下 ,这 是 因为 很 难 确定 应 该 度量 什么 。 例 如 , 在 执行 转录 任务 时 , 我 
们 是 应 该 度量 系统 转录 整个 序列 的 准确 率 ， 还 是 应 该 用 一 个 更 细 粒 度 的 指标 ， 对 序 
列 中 正确 的 部 分 元 素 以 正面 评价 ? 在 执行 回归 任务 时 ， 我 们 应 该 更 多 地 惩罚 频繁 犯 


一 妆 
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一 些 中 等 错误 的 系统 ， 还 是 较 少 犯错 但 是 犯 很 大 错误 的 系统 ?” 这些 设计 的 选择 取决 
于 应 用 。 

还 有 一 些 情况 ， 我 们 知道 应 该 度量 哪些 数值 ， 但 是 度量 它们 不 太 现实 。 这 种 情 
况 经 常 出 现在 密度 佑 计 中 。 很 多 最 好 的 概率 模型 上 只 能 隐 式 地 表示 概率 分 布 。 在 许多 
这 类 模型 中 ， 计 算 空间 中 特定 点 的 概率 是 不 可 行 的 。 在 这 些 情 况 下 ， 我 们 必须 设计 
一 个 仍然 对 应 于 设计 对 象 的 替代 标准 ， 或 者 设计 一 个 理想 标准 的 良好 近似 。 


5.1.3 ”经 验 五 


根据 学 习 过 程 中 的 不 同 经 验 ， 机 需 学 习 算 法 可 以 大 致 分 类 为 无 监督 (unsuper- 
vised ) 算法 和 监督 (supervised ) 算法 。 

本 书 中 的 大 部 分 学 习 算 法 可 以 被 理解 为 在 整个 数据 集 (dataset ) 上 获取 经 验 。 
数据 集 是 指 很 多 样本 组 成 的 集合 ， 如 第 5.1.1 节 所 定义 的 。 有 时 我 们 也 将 样本 称 为 数 
据点 (data point )。 

Tris ( 营 尾 花卉 ) 数据 集 (Fisher, 1936) 是 统计 学 家 和 机 器 学 习 研 究 者 使 用 了 很 
入 的 数据 集 。 它 是 150 个 膏 尾 花 开 植物 不 同 部 分 测量 结果 的 集合 。 每 个 单独 的 植物 
对 应 一 个 样本 。 每 个 样本 的 特征 是 该 植物 不 同 部 分 的 测量 结果 : 要 片 长 度 、 葛 片 宽 
度 、 花 鸭 长 度 和 花瓣 宽度 。 这 个 数据 集 也 记录 了 每 个 植物 属于 什么 品种 ， 其 中 共有 
三 个 不 同 的 品种 。 

无 监督 学 习 算 法 (unsupervised learning algorithm ) 训练 含有 很 多 特征 的 数据 
集 ， 然 后 学 习 出 这 个 数据 集 上 有 用 的 结构 性 质 。 在 深度 学 习 中 ,我们 通常 要 学 习 生 
成 数据 集 的 整个 概率 分 布 ， 显 式 地 ， 比 如 密度 估计 ， 或 是 隐 式 地 ， 比 如 合成 或 去 噪 。 
还 有 一 些 其 他 类 型 的 无 监督 学 习 任 务 ， 例 如 聚 类 ， 将 数据 集 分 成 相似 样本 的 集合 。 

监督 学 习 算 法 ( supervised learning algorithm ) 训练 含有 很 多 特征 的 数据 集 , 不 
过 数据 集中 的 样本 都 有 一 个 标签 (label ) 或 目标 (target )。 例 如 ，ris 数据 集注 明 
了 每 个 意 尾 花卉 样本 属于 什么 品种 。 监 督学 习 算 法 通过 研究 Fris 数据 集 ， 学 习 如 何 
根据 测量 结果 将 样本 划分 为 三 个 不 同 品种 。 

大 致 说 来 ,无 监督 学 习 涉 及 到 观察 随机 向 量 x 的 好 几 个 样本 ， 试 图 显 式 或 隐 式 
地 学 习 出 概率 分 布 p(x)， 或 者 是 该 分 布 一 些 有 意思 的 性 质 ; 而 监督 学 习 包 含 观察 随 
机 回 量 x 及 其 相关 联 的 值 或 向 量 y, 然后 从 x 预测 y, 通常 是 估计 z(y | x)。 术 语 监 
督学 习 (supervised learning ) 源 自 这 样 一 个 视角 ， 教 员 或 者 老师 提供 目标 y 给 机 顺 
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学 习 系统 ,指导 其 应 该 做 什么 。 在 无 监督 学 习 中 , 没有 教员 或 者 老师 ， 算 法 必须 学 会 
在 没有 指导 的 情况 下 理解 数据 。 

无 监督 学 习 和 监督 学 习 不 是 严格 定义 的 术语 。 它 们 之 间 界 线 通常 是 模糊 的 。 很 
多 机 器 学 习 技术 可 以 用 于 这 两 个 任务 。 例 如 ,概率 的 链 式 法 则 表明 对 于 向 量 x e 玉 "， 
联合 分 布 可 以 分 解 成 


亿 


DCxX) =][zGs 1 (5.1) 
这 1 
该 分 解 意味 着 我 们 可 以 将 其 拆 分 成 风 个 监督 学 习 问 题 ， 来 解决 表面 上 的 无 监督 学 习 
pa。 另外, 我们 求解 监督 学 习 问 题 gty | x) 时 ， 也 可 以 使 用 传统 的 无 放 叔 学 习 策略 
学 习 联 合 分 布 p(x, 轨 ， 然 后 推断 











PCx 几 
D(V x) > 定 ，D(x， ) 


尽管 无 监督 学 习 和 监督 学 习 并 非 完全 没有 交集 的 正式 概念 ， 它 们 确实 有 助 于 粗略 分 
类 我 们 研究 机 器 学 习 算法 时 遇 到 的 问题 。 传 统 地 ， 人 们 将 回归 、 分 类 或 者 结构 化 输 
出 问题 称 为 监督 学 习 。 文 持 其 他 任务 的 密度 估计 通 向 被 称 为 无 监督 学 习 。 

学 习 范 式 的 其 他 变种 也 是 有 可 能 的 。 例 如 ， 半 监督 学 习 中 ， 一 些 样本 有 监督 目 
标 ， 但 其 他 样本 没有 。 在 多 实例 学 习 中 ， 样 本 的 整个 集合 被 标记 为 含有 或 者 不 含有 
该 类 的 样本 ， 但 是 集合 中 单独 的 样本 是 没有 标记 的 。 人 参考 Kotzias et al. (2015) 了 解 
最 近 深 度 模 型 进行 多 实例 学 习 的 示例 。 

有 些 机 器 学 习 算 法 并 不 是 训练 于 一 个 固定 的 数据 集 上 。 例 如 ， 强 化 学 习 (rein- 
forcement learning ) 算法 会 和 环境 进行 交互 ， 所 以 学 习 系 统 和 它 的 训练 过 程 会 有 反 
馈 回 路 。 这 类 算法 超出 了 本 书 的 范畴 。 请 参考 Sutton and Barto (1998) 或 Bertsekas 
and Tsitsiklis (1996) 了 解 强化 学 习 相关 知识 ，Mmnih et 咏 (2013) 介绍 了 强化 学 习 方 
向 的 深度 学 习 方 法 。 

大 部 分 机 器 学 习 算 法 简单 地 训练 于 一 个 数据 集 上 。 数 据 集 可 以 用 很 多 不 同方 式 
来 表示 。 在 所 有 的 情况 下 ， 数 据 集 都 是 样本 的 集合 ， 而 样本 是 特征 的 集合 。 

表示 数据 集 的 常用 方法 是 设计 和 矩阵 ( design matrix )。 设 计 和 矩阵 的 每 一 行 包 含 
一 个 不 同 的 样本 。 每 一 列 对 应 不 同 的 特征 。 例 如 ，Iris 数据 集 包 含 150 个 样本 ， 
个 样本 有 4 个 特征 。 这 意味 着 我 们 可 以 将 该 数据 集 表示 为 设计 矩阵 和 及 1 ， 其 
中 X1 表示 第 :个 植物 的 葛 片 长 度 ，Xi> 表示 第 《个 植物 的 葛 片 宽度 等 等 。 我 们 在 
本 书 中 描述 的 大 部 分 学 习 算 法 都 是 讲述 它们 是 如 何 运行 在 设计 矩 阵 数据 集 上 的 。 


(5.2) 
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当然 ， 每 一 个 样本 都 能 表示 成 向 量 ， 并 且 这 些 向 量 的 维度 相同 ， 才 能 将 一 个 数 
据 集 表示 成 设计 抢 阵 。 这 一 点 并 非 永远 可 能 。 例 如 ， 你 有 不 同 宽 度 和 高 度 的 照片 的 
集合 ， 那 么 不 同 的 照片 将 会 包含 不 同 数量 的 像素 。 因 此 不 是 所 有 的 照片 都 可 以 表示 
成 相同 长 度 的 向 量 。 第 9.7 节 和 第 十 章 将 会 介绍 如 何 处 理 这 些 不 同类 型 的 异 构 数据 。 
在 上 述 这 类 情况 下 ， 我 们 不 会 将 数据 集 表 示 成 浆 行 的 矩阵 ， 而 是 表示 成 m 个 元 素 
的 结合 ，{z0D,z2)，..,zom}。 这 种 表示 方式 意味 着 样本 向 量 zx5 和 zx) 可 以 有 不 
同 的 大 小 。 

在 监督 学 习 中 ,样本 包含 一 个 标签 或 目标 和 一 组 特征 。 例 如 ， 我 们 希望 使 用 学 
习 算 法 从 照片 中 识别 对 象 。 我 们 需要 明确 哪些 对 象 会 出 现在 每 张 照 片 中。 我 们 或 许 
会 用 数字 编码 表示 ,， 如 0 表示 人 、1 表示 车 、2 表示 猫 等 等 。 通 常 在 处 理 包含 观测 特 
征 的 设计 和 矩阵 怀 的 数据 集 时 ， 我 们 也 会 提供 一 个 标签 向 量 y， 其 中 表示 样本 ; 
的 标签 。 

当然 ， 有 时 标签 可 能 不 止 一 个 数 。 例 如 ， 如 果 我 们 想 要 训练 语音 模型 转录 整个 
句子 ， 那 么 每 个 句子 样本 的 标签 是 一 个 单词 序列 。 

正如 监督 学 习 和 无 监督 学 习 没 有 正式 的 定义 ， 数 据 集 或 者 经 验 也 没有 严格 的 区 
分 。 这 里 介绍 的 结构 涵盖 了 大 多 数 情况 ， 但 始终 有 可 能 为 新 的 应 用 设计 出 新 的 结构 。 


























5.1.4 “示例 : 线性 回归 


我 们 将 机 器 学 习 算 法 定义 为 ， 通 过 经 验 以 提高 计算 机 程序 在 某 些 任 务 上 性 能 的 
算法 。 这 个 定义 有 点 抽象 。 为 了 使 这 个 定义 更 具体 点 ， 我 们 展示 一 个 简单 的 机 器 学 
习 示 例 : 线性 回归 (linear regression )。 当 我 们 介绍 更 多 有 助 于 理解 机 器 学 习 特 性 的 
概念 时 ， 我 们 会 反复 回顾 这 个 示例 。 

顾名思义 ,线性 回归 解决 回归 问题 。 换 言 之 ,我们 的 目标 是 建立 一 个 系统 ,将 向 
量 ze 了 "作为 输入 ， 预 测 标量 y e 取 作为 输出 。 线 性 回归 的 输出 是 其 输入 的 线性 函 
数 。 令 少 表 示 模 型 预测 y 应 该 取 的 值 。 我 们 定义 输出 为 


少 = (5.3) 














其 中 we 及"” 是 参数 (parameter ) 向 量 。 

参数 是 控制 系统 行为 的 值 。 在 这 种 情况 下 ，wi 是 系数 ， 会 和 特征 z; 相 乘 之 
后 全 部 相 加 起 来 。 我 们 可 以 将 w 看 作 是 一 组 决定 每 个 特征 如 何 影 响 预测 的 权重 
(weight )。 如 果 特 征 z; 对 应 的 权重 ws; 是 正 的 ,那么 特征 的 值 增加 ， 我 们 的 预测 值 
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少 也 会 增加 。 如 果 特 征 z; 对 应 的 权重 w; 是 负 的 ， 那 么 特征 的 值 增加 ， 我 们 的 预测 
值 少 会 减少 。 如 果 特 征 权 重 的 大 小 很 大 ， 那 么 它 对 预测 有 很 大 的 影响 ;如 果 特 征 权 
重 的 大 小 是 零 ， 那 么 它 对 预测 没有 影响 。 

因此 ， 我 们 可 以 定义 任务 卫 : 通过 输出 少 = wz 从 z 预测 y。 接 下 来 我 们 需要 
定义 性 能 度量 一 一 P。 
假设 我 们 有 7 个 输入 样本 组 成 的 设计 矩阵， 我 们 不 用 它 来 训练 模型 ， 而 是 评 
估 模 型 性 能 如 何 。 我 们 也 有 每 个 样本 对 应 的 正确 值 y 组 成 的 回归 目标 向 量 。 因 为 这 
个 数据 集 只 是 用 来 评 佑 性能， 我们 称 之 为 测试 集 (test set )。 我 们 将 输入 的 设计 拢 
阵 记 作 4e9 ， 回 归 目 标 向 量 记 作 Wes9 。 

度量 模型 性 能 的 一 种 方法 是 计算 模型 在 测试 集 上 的 均 方 误 姜 《mean squared 
error )。 如 果 名 s) 表示 模型 在 测试 集 上 的 预测 值 ， 那 么 均 方 误差 表示 为 : 
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机 二 人 5.4 
test 届 间 2 ); (5.4) 


直观 上 ， 当 esb = ytesb 时 ， 我 们 会 发 现 误差 降 为 0。 我 们 也 可 以 看 到 
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2 ) 

所 以 当 预 测 值 和 目标 值 之 间 的 欧 几 里 得 距离 增加 时 ， 误 差 也 会 增加 。 
为 了 构建 一 个 机 噩 学 习 算法 ， 我 们 需要 设计 一 个 算法 ， 通 过 观察 训练 集 

(和 ee geio) 获得 经 验 ， 减 少 MSFEies 以 改进 权重 w。 一 种 直观 方式 (我们 

将 在 后 续 的 第 5.5.1 节 说 明 其 合法 性 ) 是 最 小 化 训练 集 上 的 均 方 误差 ， 即 MSEuain。 
最 小 化 MSEtuan ， 我 们 可 以 简单 地 求解 其 导数 为 0 的 情况 : 


























VuwMSEtrain 一 0 (5.6) 
1 | 2 
< 六 eei) 二 UNtrain) = (5.7) 
7 放 2 
工 (train) trai 
0 | 四 一 Werain|| 一 0 (5.8) 
7 和 2 
生 交 站 生 
Sa V ( 蕊 rain) ty) 本 We ( 开 rain) tn) 本 We 三 性 (5.9) 


ES Vv ( (train)T (train) rn) 到 270T 和 (train)  Wtrain) 十 We 二 条 (5.10) 


全 2 X(train)T 双 (train) ty) 扯 2 和 ttrain) WAtrain) 一 0 (5.11) 
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豆 


信人 切 二 Eee 入 (train) TV/train) (5.12) 


通过 式 (5.12) 给 出 解 的 系统 方程 被 称 为 正规 方程 (normal equation ) 。 计 算 
式 (5.12) 构成 了 一 个 简单 的 机 需 学 习 算 法 。 图 5.1 展示 了 线性 回归 算法 的 使 用 示例 。 
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图 5.1: 一 个 线性 回归 问题 ， 其 中 训练 集 包 括 十 个 数据 点 ， 每 个 数据 点 包含 一 个 特征 。 因 为 只 有 一 
个 特征 ， 权 重 向 量 w 也 只 有 一 个 要 学 习 的 参数 wz。( 左 ) 我 们 可 以 观察 到 线性 回归 学 习 wz ， 从 而 
使 得 直线 y = wiz 能 够 尽量 接近 穿 过 所 有 的 训练 点 。( 右 ) 标注 的 点 表示 由 正规 方程 学 习 到 的 ww 
的 值 ， 我 们 发 现 它 可 以 最 小 化 训练 集 上 的 均 方 误差 。 



































值得 注意 的 是 ,术语 线性 回归 (linear regression ) 通常 用 来 指 稍微 复杂 一 些 ， 
附加 额外 参数 〈 截 距 项 ， ) 的 模型 。 在 这 个 模型 中 ， 


放下 TZ 十 b (5.13) 


因此 从 参数 到 预测 的 映射 仍 是 一 个 线性 函数 ， 而 从 特征 到 预测 的 映射 是 一 个 仿 射 函 
数 。 如 此 扩展 到 仿 射 函数 意味 着 模型 预测 的 曲线 仍然 看 起 来 像 是 一 条 直线 ， 只 是 这 
条 直线 没 必 要 经 过 原点 。 除 了 通过 添加 俩 置 参 数 "， 我 们 还 可 以 使 用 仅 含 权重 的 模 
型 ， 但 是 z 需要 增加 一 项 永远 为 1 的 元 素 。 对 应 于 额外 1 的 权重 起 到 了 侦 置 参数 的 
作用 。 当 我 们 在 本 书 中 提 到 仿 射 函数 时 ， 我 们 会 经 常 使 用 术语 “线性 ”。 

截 距 项 通常 被 称 为 仿 射 变换 的 偏 置 (bias ) 参数 。 这 个 术语 的 命名 源 自 该 变 
换 的 输出 在 没有 任何 输入 时 会 偏 移 %。 它 和 统计 俩 差 中 指 代 统 计 估 计算 法 的 某 个 量 的 
期 望 佑 计 偶 离 真实 值 的 意思 是 不 一 样 的 。 

线性 回归 当然 是 一 个 极其 简单 且 有 局 限 的 学 习 算 法 ， 但 是 它 提供 了 一 个 说 明 学 
习 算法 如 何 工作 的 例子 。 在 接 下 来 的 小 节 中 ,我们 将 会 介绍 一 些 设计 学 习 算法 的 基 
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本 原则 ， 并 说 明 如 何 使 用 这 些 原则 来 构建 更 复杂 的 学 习 算法 。 
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机 需 学 习 的 主要 挑战 是 我 们 的 算法 必须 能 够 在 先前 未 观测 的 新 输入 上 表现 良好 ， 
而 不 只 是 在 训练 集 上 表现 良好 。 在 先前 未 观测 到 的 输入 上 表现 良好 的 能 力 被 称 为 泛 
化 (generalization )。 

通常 情况 下 ， 当 我 们 训练 机 器 学 习 模 型 时 ， 我 们 可 以 使 用 某 个 训练 集 ， 在 训练 
集 上 计算 一 些 被 称 为 训练 误差 (training error ) 的 度量 误差 ， 目 标 是 降低 训练 误差 。 
目前 为 止 ,， 我 们 讨论 的 是 一 个 简单 的 优化 问题 。 机 器 学 习 和 优化 不 同 的 地 方 在 于 , 我 
们 也 希望 泛 化 误差 (generalization error ) (也 被 称 为 测试 误差 〈test error ) ) 很 低 。 
泛 化 误差 被 定义 为 新 输入 的 误差 期 望 。 这 里 ， 期 望 的 计算 基于 不 同 的 可 能 输入 ， 这 
些 输入 采 自 于 系统 在 现实 中 遇 到 的 分 布 。 

通常 ， 我 们 度量 模型 在 训练 集中 分 出 来 的 测试 集 (test set ) 样本 上 的 性 能 ， 来 
评估 机 需 学 习 模 型 的 泛 化 误差 。 

在 我 们 的 线性 回归 示例 中 ， 我 们 通过 最 小 化 训练 误差 来 训练 模型 ， 


工 
Ttrain) 
2 


但 是 我 们 真正 关注 的 是 测试 误差 mso | w 一 wee9|， 

当 我 们 只 能 观测 到 训练 集 时 ， 我 们 如 何 才 能 影响 测试 集 的 性 能 呢 ? 统计 学 习 理 
论 (statistical learning theory ) 提供 了 一 些 答案 。 如 果 训 练 集 和 测试 集 的 数据 是 任 
意 收 集 的 ， 那 么 我 们 能 够 做 的 确实 很 有 限 。 如 果 我 们 可 以 对 训练 集 和 测试 集 数据 的 
收集 方式 有 些 假 设 ， 那 么 我 们 能 够 对 算法 做 些 改进 。 

训练 集 和 测试 集 数 据 通过 数据 集 上 被 称 为 数据 生成 过 程 (data generating pro- 
cess ) 的 概率 分 布 生 成 。 通 常 ， 我 们 会 做 一 系列 被 统称 为 独立 同 分 布 假设 〈i.i.d. 
assumption ) 的 假设 。 该 假设 是 说 ， 每 个 数据 集中 的 样本 都 是 彼此 相互 独立 的 (in- 
dependent )， 并 且 训 练 集 和 测试 集 是 同 分 布 的 〈identically distributed )， 采 样 自 相 
同 的 分 布 。 这 个 假设 使 我 们 能 够 在 单个 样本 的 概率 分 布 描述 数据 生成 过 程 。 然 后 相 
同 的 分 布 可 以 用 来 生成 每 一 个 训练 样本 和 每 一 个 测试 样本 。 我 们 将 这 个 共享 的 潜在 
分 布 称 为 数据 生成 分 布 (data generating distribution )， 记 作 paata。 这 个 概率 框架 
和 独立 同 分 布 假设 允许 我 们 从 数学 上 研究 训练 误差 和 测试 误差 之 间 的 关系 。 
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(5.14) 
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我 们 能 观察 到 训练 误差 和 测试 误差 之 间 的 直接 联系 是 ， 随 机 模型 训练 误差 的 期 
望 和 该 模型 测试 误差 的 期 望 是 一 样 的 。 假 设 我 们 有 概率 分 布 p(z 急 ， 从 中 重复 采样 
生成 训练 集 和 测试 集 。 对 于 某 个 固定 的 w， 训 练 集 误差 的 期 望 恰好 和 测试 集 误差 的 
期 望 一 样 ， 这 是 因为 这 两 个 期 望 的 计算 都 使 用 了 相同 的 数据 集 生 成 过 程 。 这 两 种 情 
况 的 唯一 区 别 是 数据 集 的 名 字 不 同 。 

当然 ， 当 我 们 使 用 机 天 学 习 算 法 时 ， 我 们 不 会 提前 固定 参数 ， 然 后 采样 得 到 两 
个 数据 集 。 我 们 采样 得 到 训练 集 ， 然 后 挑选 参数 去 降低 训练 集 误 差 ， 然后 采样 得 到 测 
试 集 。 在 这 个 过 程 中 ， 测 试 误差 期 望 会 大 于 或 等 于 训练 误差 期 望 。 以 下 是 决定 机 顺 
学 习 算 法 效果 是 否 好 的 因素 : 





1. 降低 训练 误差 。 
2. 缩小 训练 误差 和 测试 误差 的 差距 。 


这 两 个 因素 对 应 机 器 学 习 的 两 个 主要 挑战 : 欠 拟 合 (underfitting ) 和 过 拟 合 
(Coverfitting )。 欠 拟 合 是 指 模型 不 能 在 训练 集 上 获得 足够 低 的 误差 。 而 过 拟 合 是 指 训 
练 误 差 和 和 测试 误差 之 间 的 差 上 距 太 大 。 

通过 调整 模型 的 容量 ( capacity )， 我 们 可 以 控制 模型 是 否 偏 癌 于 过 拟 合 或 者 从 
拟 合 。 通 俗 地 ， 模 型 的 容量 是 指 其 拟 合 各 种 函数 的 能 力 。 容 量 低 的 模型 可 能 很 难 拟 
合 训 练 集 。 容 量 高 的 模型 可 能 会 过 拟 合 ， 因 为 记 住 了 不 适用 于 测试 集 的 训练 集 性 质 。 

一 种 控制 训练 算法 容量 的 方法 是 选择 假设 空间 (hypothesis space )， 即 学 习 算 
法 可 以 选择 为 解决 方案 的 函数 集 。 例 如 ， 线 性 回归 算法 将 关于 其 输入 的 所 有 线性 函 
数 作 为 假设 空间 。 广义 线性 回归 的 假设 空间 包括 多 项 式 函 数 ， 而 非 仅 有 线性 函数 。 这 
样 做 就 增加 了 模型 的 容量 。 

一 次 多 项 式 提供 了 我 们 已 经 熟悉 的 线性 回归 模型 ， 其 预测 如 下 : 












































乡 一 六 十 0. (5.15) 





通过 引入 ?22 作为 线性 回归 模型 的 另 一 个 特征 ， 我 们 能 够 学 习 关 于 z 的 二 次 函数 模 
型 : 


人 一 0 十 W17 十 272. (5.16) 


尽管 该 模型 是 输入 的 二 次 函数 , 但 输出 仍 是 参数 的 线性 函数 。 因 此 我 们 仍然 可 以 用 正 
规 方程 得 到 模型 的 财 解 。 我 们 可 以 继续 添加 z 的 更 高 老 作 为 额外 特征 ， 例 如 下 面 的 
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9 次 多 项 式 : 


9 
六 一 0 十 》 ui25 (5.17) 
i=1 


当 机 器 学 习 算法 的 容量 适合 于 所 执行 任务 的 复杂 度 和 所 提供 训练 数据 的 数量 时 ， 
算法 效果 通常 会 最 佳 。 容 量 不 足 的 模型 不 能 解决 复杂 任务 。 容 量 高 的 模型 能 够 解决 
复杂 的 任务 ， 但 是 当 其 容量 高 于 任务 所 需 时 ， 有 可 能 会 过 拟 合 。 

图 5.2 展 示 了 这 个 原理 的 使 用 情况 。 我 们 比较 了 线性 ,二 次 和 9 次 预测 需 拟 合 真 
实 二 次 函数 的 效果 。 线 性 函数 无 法 刻画 真实 函数 的 曲率 ,所 以 从 拟 合 。9 次 函数 能 够 
表示 正确 的 函数 ， 但 是 因为 训练 参数 比 训练 样本 还 多 ， 所 以 它 也 能 够 表示 无 限 多 个 
刚好 穿越 训练 样本 点 的 很 多 其 他 冰 数 。 我 们 不 太 可 能 从 这 很 多 不 同 的 解 中 选 出 一 个 
泛 化 良好 的 。 在 这 个 问题 中 ， 二 次 模型 非常 符合 任务 的 真实 结构 ， 因 此 它 可 以 很 好 
地 泛 化 到 新 数据 上 。 
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图 5.2: 我 们 用 三 个 模型 拟 合 了 这 个 训练 集 的 样本 。 训 练 数据 是 通过 随机 抽取 z 然后 用 二 次 函数 确 
定性 地 生成 y 来 合成 的 。( 左 ) 用 一 个 线性 函数 拟 合 数据 会 导致 从 拟 合 一 一 它 无 法 捕捉 数据 中 的 曲 
率 信息 。( 中 /) 用 二 次 函数 拟 合 数据 在 未 观察 到 的 点 上 泛 化 得 很 好 。 这 并 不 会 导致 明显 的 从 拟 合 或 
者 过 拟 合 。( 右 ) 一 个 9 阶 的 多 项 式 拟 合 数据 会 导致 过 拟 合 。 在 这 里 我 们 使 用 Moore-Penrose 伪 
逆 来 解 这 个 欠 定 的 正规 方程 。 得 出 的 解 能 够 精确 地 穿 过 所 有 的 训练 点 ， 但 可 惜 我 们 无 法 提取 有 效 
的 结构 信息 。 在 两 个 数据 点 之 间 它 有 一 个 真实 的 函数 所 不 包含 的 深谷 。 在 数据 的 左 侧 ， 它 也 会 急 
剧 增长 ， 而 在 这 一 区 域 真 实 的 函数 却 是 下 降 的 。 





































































































目前 为 止 , 我 们 探讨 了 通过 改变 输入 特征 的 数目 和 加 入 这 些 特征 对 应 的 参数 , 改 
变 模型 的 容量 。 事 实 上 ， 还 有 很 多 方法 可 以 改变 模型 的 容量 。 容 量 不 仅 取决 于 模型 
的 选择 。 模 型 规定 了 调整 参数 降低 训练 目标 时 ， 学 习 算 法 可 以 从 哪些 函数 族 中 选择 


100 第 五 章 ”机 器 学 习 基 而 


函数 。 这 被 称 为 模型 的 表示 容量 (representational capacity )。 在 很 多 情况 下 ， 从 这 
些 函数 中 挑选 出 最 优 函 数 是 非常 困难 的 优化 问题 。 实 际 中 ， 学 习 算 法 不 会 真 的 找到 
最 优 函 数 ， 而 仅 是 找到 一 个 可 以 大 大 降低 训练 误差 的 函数 。 额 外 的 限制 因素 ， 比 如 
优化 算法 的 不 完美 ， 意 味 着 学 习 算 法 的 有 效 容量 ( effective capacity ) 可 能 小 于 模型 
族 的 表示 容量 。 

提高 机 器 学 习 模型 泛 化 的 现代 思想 可 以 追溯 到 早 在 托 勒 密 时 期 的 哲学 家 的 思 
想 。 许 多 早期 的 学 者 提出 一 个 简约 原则 ， 现 在 广泛 被 称 为 奥 卡 姆 剃刀 ( Occamn's 
razor ) (c. 1287-1387 )。 该 原则 指出 ,在 同样 能 够 解释 已 知 观测 现象 的 假设 中 ,我们 
应 该 挑选 “最 简单 ”的 那 一 个 。 这 个 想法 是 在 20 世纪 ， 由 统计 学 习 理 论 创始 人 形式 
化 并 精确 化 的 (Vapnik and Chervonenkis,，1971; Vapnik,， 1982; Blumer et al1.，1989; 
Vapnik,， 1995)。 

统计 学 习 理 论 提 供 了 量化 模型 容量 的 不 同方 法 。 在 这 些 中 , 最 有 名 的 是 Vapnik- 
Chervonenkis 维度 ( Vapnik-Chervonenkis dimension, VC )。VC 维度 量 二 元 分 类 
器 的 容量 。VC 维 定义 为 该 分 类 器 能 够 分 类 的 训练 样本 的 最 大 数目 。 假 设 存在 mm 个 
不 同 z 点 的 训练 集 ， 分 类 器 可 以 任意 地 标记 该 mm 个 不 同 的 z 点 ，VC 维 被 定义 为 mm 
的 最 大 可 能 值 。 

量化 模型 的 容量 使 得 统计 学 习 理 论 可 以 进行 量化 预测 。 统 计 学 习 理 论 中 最 重要 
的 结论 盖 述 了 训练 误差 和 泛 化 误差 之 间 差 异 的 上 界 随 着 模型 容量 增长 而 增长 ， 但 
随 着 训练 样本 增多 而 下 降 (Vapnik and Chervonenkis,，1971; Vapnik，1982; Blumer 
et al., 1989; Vapnik, 1995)。 这 些 边界 为 机 器 学 习 算 法 可 以 有 效 解 决 问 题 提 供 了 理论 
验证 ， 但 是 它们 很 少 应 用 于 实际 中 的 深度 学 习 算 法 。 一 部 分 原因 是 边界 太 松 ， 另 一 
部 分 原因 是 很 难 确定 次 度 学 习 算 法 的 容量 。 由 于 有 效 容量 受 限 于 优化 算法 的 能 
确定 深度 学 习 模 型 容量 的 问题 特别 困难 。 而 且 对 于 次 度 学 习 中 的 一 般 非 凸 优化 问题 ， 
我 们 只 有 很 少 的 理论 分 析 。 

我 们 必须 记 住 虽 然 更 简单 的 困 数 更 可 能 泛 化 〈 训 练 误差 和 测试 误差 的 差距 小 )， 
但 我 们 仍然 需要 选择 一 个 充分 复杂 的 假设 以 达到 低 的 训练 误差 。 通 常 ， 当 模型 容量 
上 升 时 ， 训 练 误差 会 下 降 ， 直 到 其 渐 近 最 小 可 能 误差 〈 假 设 误差 度量 有 最 小 值 )。 通 
常 ， 泛 化 误差 是 一 个 关于 模型 容量 的 U 形 曲 线 函 数 。 如 图 5.3 所 示 。 

为 考虑 容量 任意 高 的 极端 情况 ， 我 们 介绍 非 参数 (non-parametric ) 模型 的 概 
念 。 至 此 ,我 们 只 探讨 过 参数 模型 ， 例 如 线性 回归 。 参 数 模 型 学 习 的 函数 在 观测 到 新 
数据 前 ， 参 数 回 量 的 分 量 个 数 是 有 限 且 固定 的 。 非 参数 模型 没有 这 些 限制 。 
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图 5.3: 容量 和 误差 之 间 的 典型 关系 。 训 练 误 差 和 测试 误差 表现 得 非常 不 同 。 在 图 的 左 端 ， 训 练 误 
差 和 泛 化 误差 都 非常 高 。 这 是 欠 拟 合 机 制 (underfitting regime )。 当 我 们 增加 容量 时 , 训练 误差 减 
小 , 但 是 训练 误差 和 泛 化 误差 之 间 的 间距 却 不 断 扩 大 。 最 终 ， 这 个 间距 的 大 小 超过 了 训练 误差 的 下 
降 ， 我 们 进入 到 了 过 拟 合 机 制 (overfitting regime )， 其 中 容量 过 大 ， 超 过 了 最 佳 容 量 ( optimal 
capacity )。 














有 时 ， 非 参数 模型 仅 是 一 些 不 能 实际 实现 的 理论 抽象 ( 比如 搜索 所 有 可 能 概率 
分 布 的 算法 )。 然 而 ， 我 们 也 可 以 设计 一 些 实用 的 非 参 数 模型 ， 使 它们 的 复杂 度 和 训 
练 集 大 小 有 关 。 这 种 算法 的 一 个 示例 是 最 近邻 回归 (nearest neighbor regression )。 
不 像 线 性 回归 有 固定 长 度 的 向 量 作为 权重 ， 最 近邻 回归 模型 存储 了 训练 集中 所 有 的 
环 和 yy。 当 需 要 为 测试 点 2 分 类 时 ， 模 型 会 查询 训练 集中 离 该 点 最 近 的 点 ， 并 返回 
相关 的 回归 目标 。 换 言 之 , 少 = 入 其 中 ;i = argmin 1: -zl2。 该 算法 也 可 以 扩展 
成 二 范 数 以 外 的 距离 度量 ， 例 如 学 成 距离 度量 (Goldberger et al., 2005)。 在 最 近 疝 
量 不 唯一 的 情况 下 ， 如 果 人 允许 算法 对 所 有 离 z 最 近 的 闷 : 关联 的 太 求 平均 ， 那 么 
该 算法 会 在 任意 回归 数据 集 上 达到 最 小 可 能 的 训练 误差 (如果 存 在 两 个 相同 的 输入 
对 应 不 同 的 输出 ， 那 么 训练 误差 可 能 会 大 于 零 )。 

最 后 ， 我 们 也 可 以 将 参数 学 习 算 法 丛 入 另 一 个 增加 参数 数目 的 算法 来 创建 非 参 
数学 习 算 法 。 例 如 ， 我 们 可 以 想象 这 样 一 个 算法 ， 外 层 循环 调整 多 项 式 的 次 数 ， 内 
层 循 环 通过 线性 回归 学 习 模 型 。 

理想 模型 假设 我 们 能 够 预先 知道 生成 数据 的 真实 概率 分 布 。 然 而 这 样 的 模型 仍 
然 会 在 很 多 问题 上 发 生 一 些 错 误 ， 因 为 分 布 中 仍然 会 有 一 些 噪声 。 在 监督 学 习 中 , 从 
2 到 y% 的 映射 可 能 内 在 是 随机 的 ， 或 者 y 可 能 是 其 他 变量 (包括 z 在 内 ) 的 确定 性 
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函数 。 从 预先 知道 的 真实 分 布 p(z,y) 预测 而 出 现 的 误差 被 称 为 贝 叶 斯 误差 (Bayes 
eGIITOT )。 

训练 误差 和 泛 化 误差 会 随 训练 集 的 大 小 发 生变 化 。 泛 化 误差 的 期 望 从 不 会 因 训 
练 样本 数目 的 增加 而 增加 。 对 于 非 参 数 模型 而 言 ， 更 多 的 数据 会 得 到 更 好 的 泛 化 能 
力 ， 直 到 达到 最 佳 可 能 的 泛 化 误差 。 任 何 模型 容量 小 于 最 优 容量 的 固定 参数 模型 会 
渐 近 到 大 于 贝 叶 斯 误差 的 误差 值 。 如 图 5.4 所 示 。 值 得 注意 的 是 ， 具 有 最 优 容 量 的 模 
型 仍然 有 可 能 在 训练 误差 和 泛 化 误差 之 间 存 在 很 大 的 差距 。 在 这 种 情况 下 ， 我 们 可 
以 通过 收集 更 多 的 训练 样本 来 缩小 差距 。 








5.2.1 没有 免费 午餐 定理 


学 习 理 论 表 明 机 器 学 习 算 法 能 够 在 有 限 个 训练 集 样本 中 很 好 地 泛 化 。 这 似乎 违 
背 一些 基 本 的 逻辑 原则 。 归 纳 推理 ， 或 是 从 一 组 有 限 的 样本 中 推断 一 般 的 规则 ， 在 
逻辑 上 不 是 很 有 效 。 为 了 逻辑 地 推断 一 个 规则 去 描述 集合 中 的 元 素 ， 我 们 必须 具有 
集合 中 每 个 元 素 的 信息 。 

在 一 定 程 度 上 ， 机 顺 学 习 仅 通过 概率 法 则 就 可 以 避免 这 个 问题 ， 而 无 需 使 用 纯 
逻辑 推理 整个 确定 性 法 则 。 机 顺 学 习 保 证 找到 一 个 在 所 关注 的 大 多 数 样本 上 可 能 
确 的 规则 。 

可 惜 ， 即 使 这 样 也 不 能 解决 整个 问题 。 机 需 学 习 的 没有 免费 午餐 定理 (no free 
lunch theorem ) 表明 (Wolpert, 1996)， 在 所 有 可 能 的 数据 生成 分 布 上 平均 之 后 ， 
一 个 分 类 算法 在 未 事先 观测 的 点 上 都 有 相同 的 错误 率 。 换 言 之 ， 在 某 种 意义 上 ， 没 
有 一 个 机 器 学 习 算 法 总 是 比 其 他 的 要 好 。 我 们 能 够 设想 的 最 先进 的 算法 和 简单 地 将 
所 有 点 归 为 同一 类 的 简单 算法 有 着 相同 的 平均 性 能 (在 所 有 可 能 的 任务 上 )。 

幸运 的 是 ， 这 些 结论 仅 在 我 们 考虑 所 有 可 能 的 数据 生成 分 布 时 才 成 立 。 在 真实 
世界 应 用 中 ， 如 果 我 们 对 遇 到 的 概率 分 布 进行 假设 的 话 ， 那 么 我 们 可 以 设计 在 这 些 
分 布 上 效果 良好 的 学 习 算 法 。 

这 意味 着 机 需 学 习 研 究 的 目标 不 是 找 一 个 通用 学 习 算 法 或 是 绝对 最 好 的 学 习 算 
法 。 反 之 ,我 们 的 目标 是 理解 什么 样 的 分 布 与 人 工 智能 获取 经 验 的 “真实 世界 ” 相 
关 ， 什 么 样 的 学 习 算 法 在 我 们 关注 的 数据 生成 分 布 上 效果 最 好 。 
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图 5.4: 训练 集 大 小 对 训练 误差 ， 测 试 误差 以 及 最 佳 容量 的 影响 。 通 过 给 一 个 5 阶 多 项 式 添加 适当 


大 小 的 噪声 ， 我 们 构造 了 一 
集 。 为 了 描述 95 吧 




















个 合成 的 回归 问题 ， 生 成 单个 测试 集 ， 然 后 生成 一 些 不 同 尺 才 的 训练 











信 区 间 的 误差 条 ， 对 于 每 一 个 玉 寸 ,我 们 生成 了 40 个 不 同 的 训练 集 。( 上 /) 








两 个 不 同 的 模型 上 训练 集 和 测试 集 的 MSE， 一 个 二 次 模型 ， 另 一 个 模型 的 阶 数 通过 最 小 化 测试 误 























差 来 选择 。 两 个 模型 都 是 / 








j 闭 式 解 来 拟 合 。 对 于 二 次 模型 来 说 ， 当 训练 集 增 加 时 训练 误差 也 随 之 














增 大 。 这 是 由 于 越 大 的 数据 集 越 难以 拟 合 。 同 时 ， 测 试 误差 随 之 减 小 ， 因 为 关于 训练 数据 的 不 正确 





的 假设 越 来 越 少 。 二 次 模型 





的 容量 并 不 足以 解决 这 个 问题 ， 所 以 它 的 测试 误差 趋 近 于 一 个 较 高 的 














值 。 最 佳 容量 点 处 的 测试 误差 趋 近 于 贝 叶 斯 误差 。 训 练 误差 可 以 低 于 贝 叶 斯 误差 ,因为 训练 算法 有 


能 力 记 住 训练 集中 特定 的 样 














本 。 当 训练 集 趋向 于 无 穷 大 时 ， 任 何 固定 容量 的 模型 〈 在 这 里 指 的 是 




















二 次 模型 ) 的 训练 误差 都 至 























少 增 至 贝 叶 斯 误差 。( 下 ) 当 训 练 集 大 小 增 大 时 ， 最 佳 容 量 (在 这 里 是 
1 





用 最 优 多 项 式 回 归顺 的 阶 数 衡量 的 ) 也 会 随 之 增 大 。 最 佳 容量 在 达到 足够 捕 换 模型 复杂 度 之 后 就 











不 再 增长 了 。 
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5.2.2 ”正则 化 





没有 免费 午餐 定理 暗示 我 们 必须 在 特定 任务 上 设计 性 能 良好 的 机 器 学 习 算法 。 
我 们 建立 一 组 学 习 算 法 的 偏好 来 达到 这 个 要 求 。 当 这 些 依 好 和 我 们 和 希望 算法 解决 的 
学 习 问 题 相 吻 合 时 ， 性 能 会 更 好 。 

至 此 ， 我 们 具体 讨论 修改 学 习 算 法 的 方法 上 只有， 通过 增加 或 减少 学 习 算 法 可 选 
假设 空间 的 冰 数 来 增加 或 减少 模型 的 表示 容量 。 我 们 列举 的 一 个 具体 示例 是 线性 回 
归 增 加 或 减少 多 项 式 的 次 数 。 目 前 为 止 讨论 的 观点 都 是 过 度 简 化 的 。 

算法 的 效果 不 仅 很 大 程度 上 受 影 响 于 假设 空间 的 责 数 数 量 ， 也 取决 于 这 些 函 数 
的 具体 形式 。 我 们 已 经 讨论 的 学 习 算 法 (线性 回归 ) 具有 包含 其 输入 的 线性 冰 数 集 
的 假设 空间 。 对 于 输入 和 输出 确实 接近 线性 相关 的 问题 ， 这 些 线性 刺 数 是 很 有 用 的 。 
对 于 完全 非 线性 的 问题 它们 不 太 有 效 。 例 如 ,我 们 用 线性 回归 ,从 z 预测 sin(z)， 效 
果 不 会 好 。 因 此 我 们 可 以 通过 两 种 方式 控制 算法 的 性 能 ， 一 是 允许 使 用 的 末 数 种 类 ， 
二 是 这 些 困 数 的 数量 。 

在 假设 空间 中 ， 相 比 于 某 一 个 学 习 算法 ， 我 们 可 能 更 偏好 另 一 个 学 习 算法 。 这 
意味 着 两 个 函数 都 是 符合 条 件 的 ， 但 是 我 们 更 偏好 其 中 一 个 。 只 有 非 偏好 函数 比 俩 
好 函数 在 训练 数据 集 上 效果 明显 好 很 多 时 ， 我 们 才 会 考虑 非 偏 好 函数 。 

例如 ， 我 们 可 以 加 入 权重 衰减 (weight decay ) 来 修改 线性 回归 的 训练 标准 。 认 
权重 衰减 的 线性 回归 最 小 化 训练 集 上 的 均 方 误差 和 正则 项 的 和 .J(w)， 其 偏好 于 平方 
了 2 范 数 较 小 的 权重 。 上 有 具体 如 下 : 


J(uw) = MSEuain 十 XAwT a (5.18) 


其 中 和 是 提前 挑选 的 值 ， 控 制 我 们 偶 好 小 范 数 权重 的 程度 。 当 入 = 0， 我 们 没有 任 
何 修好 。 越 大 的 和 俩 好 范 数 越 小 的 权重 。 最 小 化 7(w) 可 以 看 作 是 拟 合 训练 数据 和 
俩 好 小 权重 范 数 之 间 的 权衡 。 这 会 使 得 解决 方案 的 斜率 较 小 ， 或 是 将 权重 放 在 较 少 
的 特征 上 。 我 们 可 以 训练 具有 不 同 和 值 的 高 次 多 项 式 回归 模型 ， 来 举例 说 明 如 何 通 
过 权重 衰减 控制 模型 从 拟 合 或 过 拟 合 的 趋势 。 如 图 5.5 所 示 。 

更 一 般 地 ， 正 则 化 一 个 学 习 函 数 jz; 9) 的 模型 ， 我 们 可 以 给 代价 函数 添加 被 称 
为 正则 化 项 (regularizer ) 的 惩罚 。 在 权重 衰减 的 例子 中 , 正则 化 项 是 Q(w) = wTw。 
在 第 七 章 ， 我 们 将 看 到 很 多 其 他 可 能 的 正则 化 项 。 

表示 对 函数 的 偏好 是 比 增 减 假设 空间 的 成 员 函 数 更 一 般 的 控制 模型 容量 的 方法 。 
我 们 可 以 将 去 掉 假 设 空 间 中 的 某 个 函数 看 作 是 对 不 赞成 这 个 函数 的 无 限 侦 好 。 






















































































































































































5.3 超 参 数 和 验证 集 105 


Underfitting Appropriate weight decay Overfitting 
(了 xcessive 入 ) (Medium 入 ) (入 一 0) 


20 0 Z0 














图 5.5: 我 们 使 用 高 阶 多 项 式 回归 模型 来 拟 合 图 5.2 中 训练 样本 。 真 实 函 数 是 二 次 的 ， 但 是 在 这 里 
我 们 只 使 用 9 阶 多 项 式 。 我 们 通过 改变 权重 衰减 的 量 来 避免 高 阶 模型 的 过 拟 合 问题 。( 左 ) 当 入 非 
常 大 时 ， 我 们 可 以 强迫 模型 学 习 到 了 一 个 没有 斜率 的 函数 。 由 于 它 只 能 表示 一 个 常数 函数 ， 所 以 
会 导致 从 拟 合 。( 中 ) 取 一 个 适当 的 和 时 ， 学 习 算 法 能 够 用 一 个 正常 的 形状 来 恢复 曲率 。 即 使 模型 
能 够 用 更 复杂 的 形状 来 来 表示 函数 ， 权 重 衰减 鼓励 用 一 个 带 有 更 小 参数 的 更 简单 的 模型 来 描述 它 。 
( 右 ) 当权 重 衰减 趋 近 于 0 (即使 用 Moore-Penrose 伪 逆 来 解 这 个 带 有 最 小 正则 化 的 欠 定 问题 ) 时 ， 
这 个 9 阶 多 项 式 会 导致 严重 的 过 拟 合 ， 这 和 我 们 在 图 5.2 中 看 到 的 一 样 。 















































































































































在 我 们 权重 衰减 的 示例 中 ， 通 过 在 最 小 化 的 目标 中 额外 增加 一 项 ， 我 们 明确 地 
表示 了 偏好 权重 较 小 的 线性 函数 。 有 很 多 其 他 方法 隐 式 或 显 式 地 表示 对 不 同 解 的 俩 
好 。 总 而 言 之 ， 这 些 不 同 的 方法 都 被 称 为 正则 化 (regularization )。 正 则 化 是 指 我 们 
修改 学 习 算 法 ， 使 其 降低 泛 化 误差 而 非 训 练 误 差 。 正 则 化 是 机 咒 学 习 领 域 的 中 心 问 
题 之 一 ， 只 有 优化 能 够 与 其 重要 性 相 媲 。 

没有 免费 午餐 定理 已 经 清楚 地 阐述 了 没有 最 优 的 学 习 算 法 ， 特 别 地 ， 没 有 最 优 
的 正则 化 形式 。 反 之 ， 我 们 必须 挑选 一 个 非常 适合 于 我 们 所 要 解决 的 任务 的 正则 形 
式 。 深 度 学 习 中 普遍 的 〈 特 别 是 本 书 中 的 ) 理念 是 大 量 任务 (例如 所 有 人 类 能 做 的 
智能 任务 ) 也 许 都 可 以 使 用 非常 通用 的 正则 化 形式 来 有 效 解决 。 











5.3 ” 超 参 数 和 验证 集 


大 多 数 机 器 学 习 算 法 都 有 超 参 数 ， 可 以 设置 来 控制 算法 行为 。 超 参数 的 值 不 是 
通过 学 习 算 法 本 身 学 习 出 来 的 〈 尽 管 我 们 可 以 设计 一 个 能 套 的 学 习 过 程 ， 一 个 学 习 
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算法 为 另 一 个 学 习 算 法 学 出 最 优 超 参 数 )。 

在 图 5.2 所 示 的 多 项 式 回 归 示 例 中 ， 有 一 个 超 参 数 : 多 项 式 的 次 数 ， 作 为 容量 超 
参数 。 控 制 权重 误 减 程度 的 和 是 另 一 个 超 参数 。 

有 时 一 个 选项 被 设 为 学 习 算 法 不 用 学 习 的 超 参 数 ， 是 因为 它 太 难 优 化 了 。 更 多 
的 情况 是 ， 该 选项 必须 是 超 参 数 ， 因 为 它 不 适合 在 训练 集 上 学 习 。 这 适用 于 控制 模 
型 容量 的 所 有 超 参 数 。 如 果 在 训练 集 上 学 习 超 参数 ， 这 些 超 参数 总 是 趋向 于 最 大 可 
能 的 模型 容量 ， 导 致 过 拟 合 (参考 图 5.3 )。 例 如 ， 相 比 低 次 多 项 式 和 正 的 权重 衰减 
设 定 ， 更 高 次 的 多 项 式 和 权重 衰减 参数 设 定 和 = 0 总 能 在 训练 集 上 更 好 地 拟 合 。 

为 了 解决 这 个 问题 ， 我 们 需要 一 个 训练 算法 观测 不 到 的 验证 集 (validation set ) 
样本 。 

早先 我 们 讨论 过 和 训练 数据 相同 分 布 的 样本 组 成 的 测试 集 ， 它 可 以 用 来 估计 学 
习 过 程 完成 之 后 的 学 习 器 的 泛 化 误差 。 其 重点 在 于 测试 样本 不 能 以 任何 形式 参与 到 
模型 的 选择 中 ,包括 设 定 超 参数 。 基 于 这 个 原因 ， 测 试 集 中 的 样本 不 能 用 于 验证 集 。 
因此 ， 我 们 总 是 从 训练 数据 中 构建 验证 集 。 特 别 地 ， 我 们 将 训练 数据 分 成 两 个 不 相 
交 的 子 集 。 其 中 一 个 用 于 学 习 参 数 。 另 一 个 作为 验证 集 ， 用 于 估计 训练 中 或 训练 后 
的 泛 化 误差 ， 更 新 超 参 数 。 用 于 学 习 参 数 的 数据 子 集 通常 仍 被 称 为 训练 集 ， 尽 管 这 
会 和 整个 训练 过 程 用 到 的 更 大 的 数据 集 相 混 。 用 于 挑选 超 参数 的 数据 子 集 被 称 为 验 
证 集 (validation set )。 通 常 ，80% 的 训练 数据 用 于 训练 ，20 色 用 于 验证 。 由 于 验证 
集 是 用 来 “训练 ” 超 参 数 的 ,尽管 验证 集 的 误差 通常 会 比 训 练 集 误 差 小 ， 验 证 集会 低 
佑 泛 化 误差 。 所 有 超 参 数 优化 完成 之 后 ， 泛 化 误差 可 能 会 通过 测试 集 来 估计 。 

在 实际 中 ， 当 相同 的 测试 集 已 在 很 多 年 中 重复 地 用 于 评估 不 同 算法 的 性 能 ， 并 
且 考 虑 学 术 界 在 该 测试 集 上 的 各 种 和 尝试， 我们 最 后 可 能 也 会 对 测试 集 有 着 乐观 的 估 
计 。 基 准 会 因 之 变 得 陈旧 ， 而 不 能 反映 系统 的 真实 性 能 。 值 得 庆幸 的 是 ,学 术 界 往往 
会 移 到 新 的 〈 通 常会 更 巨大 、 更 具 挑 战 性 ) 基准 数据 集 上 。 









































5.3.1 “交叉 验证 


SN 


将 数据 集 分 成 固定 的 训练 集 和 固定 的 测试 集 后 ， 若 测试 集 的 误差 很 小 ， 这 将 是 
有 问题 的 。 一 个 小 规模 的 测试 集 意味 着 平均 测试 误差 佑 计 的 统计 不 确定 性 ， 使 得 
难 判断 算法 4 是 否 比 算法 殖 在 给 定 的 任务 上 做 得 更 好 。 

当 数 据 集 有 十 万 计 或 者 更 多 的 样本 时 ， 这 不 会 是 一 个 严重 的 问题 。 当 数据 集 太 





人 
了 瑾 
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小 时 ， 也 有 蔡 代 方法 允许 我 们 使 用 所 有 的 样本 估计 平均 测试 误差 ， 代 价 是 增加 了 计 
算 量 。 这 些 过 程 是 基于 在 原始 数据 上 随机 采样 或 分 离 出 的 不 同 数据 集 上 重复 训练 和 
测试 的 想法 。 最 常见 的 是 太 折 交叉 验证 过 程 ， 如 算法 5.1 所 示 ， 将 数据 集 分 成 天 个 
不 重合 的 子 集 。 测 试 误差 可 以 估计 为 上 次 计算 后 的 平均 测试 误差 。 在 第 次 测试 时 ， 
数据 的 第 ， 个 子 集 用 于 测试 集 ， 其 他 的 数据 用 于 训练 集 。 带 来 的 一 个 问题 是 不 存在 
平均 误差 方差 的 无 人 往 估 计 (Bengio and Grandvalet,， 2004) ， 但 是 我 们 通常 会 使 用 近 
似 来 解决 。 

















算法 5.1 太 折 交叉 验证 算法 。 当 给 定数 据 集 D 对 于 简单 的 训练 /测试 或 训练 /验证 分 
割 而 言 太 小 难以 产生 泛 化 误差 的 准确 估计 时 《〈 因为 在 小 的 测试 集 上 , 工 可 能 具有 过 
高 的 方差 )， 太 折 交 义 验 证 算法 可 以 用 于 估计 学 习 算 法 4 的 泛 化 误差 。 数 据 集 也 包 
ee 2z9 (对 于 第 ;个 样本 )， 在 监督 学 习 的 情况 代表 (输入 ， 目 
标 ) 对 zi = (z9,yG) ， 或 者 无 监督 学 习 的 情况 下 仅 用 于 输入 zx9 = z。 该 算法 
返回 D We e， 其 均值 是 估计 的 泛 化 误差 。 单 个 样本 上 的 误差 可 
用 于 计算 平均 值 周围 的 置信 区 间 ( 式 (5.47) )。 虽 然 这 些 置 信 区 间 在 使 用 交叉 验证 之 
后 不 能 很 好 地 证 明 ， 但 是 通常 的 做 法 是 只 有 当 算 法 4 误差 的 置信 区 间 低 于 并 且 不 与 
算法 如 的 置信 区 间 相 交 时 ， 我 们 才 声 明 算 法 4 比 算 法 妃 更 好 。 
Define KFoldXV(D, 4, 卫 大): 
Require: D 为 给 定数 据 集 ， 其 中 元 素 为 zx9 
Require: 4 为 学 习 算 法 ， 可 视 为 一 个 函数 ( 使 用 数据 集 作 为 输入 ,输出 一 个 学 好 的 
函数 ) 
Require: 研 为 损失 函数 ， 可 视 为 来 自学 好 的 函数 上 ， 将 样本 zx5 < 四 映射 到 及 中 
标量 的 函数 
Require: 大 为 折 数 
将 四 分 为 天 个 互 斥 子 集 D;， 它 们 的 并 集 为 
for y from 1 to do 
六 = 4DNDI 
for z2) in D, do 
ej 一 工 ( 户 ,z)) 


end for 














































































































2 






































end for 


Return e 
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5.4 估计 、 含 差 和 方差 


统计 领域 为 我 们 提供 了 很 多 工具 来 实现 机 器 学 习 目 标 ， 不 仅 可 以 解决 训练 集 上 
的 任务 ,还 可 以 泛 化 。 基 本 的 概念 ， 例 如 参数 估计、 侦 差 和 方差 ， 对 于 正式 地 刻画 泛 
化 、 欠 拟 合 和 过 拟 合 都 非常 有 帮助 。 





5.4.1 点 估计 

点 估计 试图 为 一 些 感 兴趣 的 量 提供 单个 “最 优 ” 预 测 。 一 般 地 ， 感 兴趣 的 量 可 以 
是 单个 参数 ， 或 是 某 些 参数 模型 中 的 一 个 向 量 参数 ， 例 如 第 5.1.4 节 线性 回归 中 的 权 
重 ， 但 是 也 有 可 能 是 整个 函数 。 

为 了 区 分 参数 估计 和 真实 值 ， 我 们 习惯 将 参数 6 的 点 估计 表示 为 0。 


令 {z ,zol 是 mm 个 独立 同 分 布 (ii.d. ) 的 数据 点 。 点 估计 (point esti- 
mator ) 或 统计 量 (statistics ) 是 这 些 数据 的 任意 函数 ; 








0 = 9g(zmD zt) (5.19) 


这 个 定义 不 要 求 9 返回 一 个 接近 真实 9 的 值 ， 或 者 9 的 值 域 恰 好 是 9 的 允许 取 值 
范围 。 点 估计 的 定义 非常 宽泛 ， 给 了 佑 计量 的 设计 者 极 大 的 灵活 性 。 虽 然 几乎 所 有 
的 函数 都 可 以 称 为 佑 计量 ， 但 是 一 个 良好 的 佑 计量 的 输出 会 接近 生成 训练 数据 的 真 
实 参数 0。 

现在 ， 我 们 采取 频率 涛 在 统计 上 的 观点 。 换 言 之 ,我们 假设 真实 参数 0 是 固定 
但 未 知 的， 而 点 估计 0 是 数据 的 函数 。 由 于 数据 是 随机 过 程 采样 出 来 的 ， 数 据 的 任 
函数 都 是 随机 的 。 因 此 0 是 一 个 随机 变量 。 
点 估计 也 可 以 指 输入 和 目标 变量 之 间 关 系 的 估计 。 我 们 将 这 种 类 型 的 点 估计 称 
为 函数 估计 。 





可 





函数 估计 “有 时 我 们 会 关注 函数 估计 《或 国 数 近似 )。 这 时 我 们 试图 从 输入 向 量 z 预 
测 变量 y% 我们 假设 有 一 个 函数 /z) 表示 y 和 z 之 间 的 近似 关系 。 例 如 ,我们 可 能 
假设 y= /zz) +e， 其 中 e 是 y 中 未 能 从 z 预测 的 一 部 分 。 在 函数 估计 中 ， 我 们 感 
兴趣 的 是 用 模型 估计 去 近似 帮 ， 或 者 估计 万 丽 数 估计 和 估计 参数 8 是 一 样 的 ;， 函 
数 估计 上 是 函数 空间 中 的 一 个 点 估计 。 线 性 回归 示例 (第 5.1.4 节 中 讨论 的 ) 和 多 项 
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式 回归 示例 (第 5.2 节 中 讨论 的 ) 都 既 可 以 被 解释 为 估计 参数 w， 又 可 以 被 解释 为 佑 
计 从 z 到 y 的 函数 映射 六 


现在 我 们 回顾 点 佑 计 最 常 研究 的 性 质 ， 并 探讨 这 些 性 质 阅 明了 估计 的 哪些 特点 。 








5.4.2 ”偏差 





估计 的 偏差 被 定义 为 : 


























bias(O) = 下 (0 ) -0， (5.20) 
其 中 期 望 作用 在 所 有 数据 〈 看 作 是 从 随机 变量 采样 得 到 的 ) 上 ，98 是 用 于 定义 数 
据 生 成 分 布 的 8 的 真实 值 。 如 果 bias(0) = 0， 那 么 估计 量 g 被 称 为 是 无 偏 
(unbiased )， 这 意味 着 也 (0,) = 9。 如 果 lim-ree bias(gm ) = 0,， 那 么 估计 量 0 被 
称 为 是 渐 近 无 偏 (asymptotically unbiased )， 这 意味 着 limw_ ,了 E(Ow) = 0。 





























示例 : 伯 努 利 分 布 考虑 一 组 服从 均值 为 0 的 伯 努 利 分 布 的 独立 同 分布 的 样本 
{z0 ,Zn : 



































Plz;g) 一 bg (0 )， (5.21) 
这 个 分 布 中 参数 9 的 常用 估计 量 是 训练 样本 的 均值 : 
人 
2 . (5.22) 
判断 这 个 估计 量 是 否 有 偏 ， 我 们 将 式 (5.22) 代入 式 (5.20) : 
bias(0Ow) = 下 [0] 一 0 (5.23) 
一 丙 工 二 (| 
= 孔 上 2 0 (5.24) 
= 二 E [zO] 一 0 (5.25) 
0 (zopr -9 )) 一 9 (5.26) 
?一 1 z(O) 一 0 
1 77 
三 一 2 一 0 (5.27) 





=0 一 0 = (5.28) 
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因为 bias(b) = 0， 我 们 称 估 计 0 是 无 偏 的 。 


示例 : 均值 的 高 斯 分 布 估 计 “ 现 在， 考虑 一 组 独立 同 分 布 的 样本 {z,..…,zeo} 服 
从 高 斯 分 布 ptzG) = NUz 人 ;ia2)， 其 中 1e{11 ,mm}。 回 顾 高 斯 概率 密度 函数 如 


工 1 (zZ 一 由 
(7) . 2 si Ps 
D(Z ;1 10 ) 一 和 exXp ( 本 】 (5.29) 


高 斯 均值 参数 的 稼 用 估计 量 被 称 为 样本 均值 (sample mean ): 


1 3 
0， 一 二 () 5.30 
访 m (5.30) 























bias(Am) 三 下 [Am 一 (5.31) 
IE 六 

= 了 下 | 二 二 | 一 5.32 

2， (3 














>》 也 oj 一 必 (5.33) 
二 (这 9 一 (5.34) 
凡 


-=0 (5.35) 





因此 我 们 发 现 样本 均值 是 高 斯 均值 参数 的 无 俩 佑 计量 。 











示例 : 高 斯 分 布 方差 估计 “本 例 中 ， 我 们 比较 高 斯 分 布 方差 参数 ao2 的 两 个 不 同 佑 
计 。 我 们 探讨 是 否 有 一 个 是 有 偏 的 。 

我 们 考虑 的 第 一 个 方差 估计 被 称 为 样本 方差 (sample variance ): 
人 (5.36) 
4 于 


其 中 Am 是 样本 均值 。 更 形式 地 ， 我 们 对 计算 感 兴趣 














中 | 呈 


六 坊 
人 

















bias(62 ) 一 正 [52 ] 一 ”2. (5.37) 
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我 们 首先 估计 项 严 








62 ] : 





























g[52 ] 一 下 2 ho (5.38) 
二 (5.39) 


回 到 式 (5.37) ， 我 们 可 以 得 出 62 的 偏差 是 -2/m。 因 此 样本 方差 是 有 偏 估 计 。 
无 偏 样本 方差 (unbiased sample variance ) 估计 

















岂 1 。 民 六 交 


提供 了 另 一 种 可 选 方法 。 正 如 名 字 所 言 ， 这 个 佑 计 是 无 俩 的 。 换 言 之 ， 我 们 会 发 现 


E[52 ] = oa?2 : 



























































[52 ] 一下 示 六 (z9 - Po (5.41) 
汉 二 二 E[52 ] (5.42) 
770 mm 一 1] 。 
， n) (5.43) 
二 2， (5.44) 














我 们 有 两 个 佑 计量 : 一 个 是 有 偏 的 ， 另 一 个 是 无 全 的。 尽管 无 俩 佑 计 显然 是 令 
人 满意 的 ， 但 它 并 不 总 是 “最 好 ”的 估计 。 我 们 将 看 到 ， 经 常会 使 用 其 他 具有 重要 性 
质 的 有 俩 估计 。 












































5.4.3 ”方差 和 标准 差 





我 们 有 时 会 考虑 估计 量 的 另 一 个 性 质 是 它 作 为 数据 样本 的 困 数 ， 期 望 的 变化 程 
度 是 多 少 。 正 如 我 们 可 以 计算 估计 量 的 期 望 来 决定 它 的 偏差 ， 我 们 也 可 以 计算 它 的 
方差 。 估 计量 的 方差 (variance ) 就 是 一 个 方差 








Var(O) (5.45) 





其 中 随机 变量 是 训练 集 。 另 外 , 方差 的 平方 根 被 称 为 标准 差 (standard error )， 记 作 
SE(O)。 
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估计 量 的 方差 或 标准 差 告诉 我 们 ， 当 独立 地 从 洪 在 的 数据 生成 过 程 中 重 采 样 数 
据 集 时 ， 如 何 期 望 估计 的 变化 。 正 如 我 们 希望 估计 的 偏差 较 小 ， 我 们 也 和 希望 其 方差 
较 小 。 

当 我 们 使 用 有 限 的 样本 计算 任何 统计 量 时 ， 真 实 参 数 的 估计 都 是 不 确定 的 ， 在 
这 个 意义 下 ， 从 相同 的 分 布 得 到 其 他 样本 时 ， 它 们 的 统计 量 也 会 不 一 样 。 任 何方 差 
估计 量 的 期 望 程度 是 我 们 想 量 化 的 误差 的 来 源 。 

均值 的 标准 差 被 记 作 














so- 





2 - 旋 (5.46) 


站 





其 中 c2 是 样本 z( 的 真实 方差 。 标 准 差 通 常 被 记 作 cc。 可 惜 ， 样 本 方差 的 平方 根 和 
方差 无 俩 估计 的 平方 根 都 不 是 标准 差 的 无 侦 佑 计 。 这 两 种 计算 方法 都 倾向 于 低 佑 真 
实 的 标准 差 ， 但 仍 用 于 实际 中 。 相 较 而 言 , 方差 无 俩 估计 的 平方 根 较 少 被 低 佑 。 对 于 
较 大 的 奈 ， 这 种 近似 非常 合理 。 

均值 的 标准 差 在 机 器 学 习 实 验 中 非常 有 用 。 我 们 通常 用 测试 集 样本 的 误差 均值 
来 估计 泛 化 误差 。 测 试 集中 样本 的 数量 决定 了 这 个 估计 的 精确 度 。 中 心 极限 定理 告 
诉 我 们 均值 会 接近 一 个 高 斯 分 布 ， 我 们 可 以 用 标准 差 计 算出 真实 期 望 落 在 选 定 区 间 
的 概率 。 例 如 ， 以 均值 如 om 为 中 心 的 95% 置信 区 间 是 














(0 一 1.96SE(P), 冲 十 1.96SE(P ns))， (5.47) 


以 上 区 间 是 基于 均值 Am 和 方差 SE(Am)” 的 高 斯 分 布 。 在 机 器 学 习 实 验 中 ,我们 通 
常 说 算法 4 比 算法 妃 好 ， 是 指 算法 4 的 误差 的 95% 置信 区 间 的 上 界 小 于 算法 如 
的 误差 的 95% 置信 区 间 的 下 界 。 


示例 : 伯 努 利 分 布 “我们 再 次 考虑 从 伯 努 利 分 布 ( 回顾 P(z(0;g 人 ) = 0 (1 一 0 的 二” ) 
中 独立 同 分 布 采样 出 来 的 一 组 样本 {z0,. ,zeo}。 这 次 我 们 关注 估计 0 = 
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工 亲 玫 ，zG) 的 方差 ; 


va 人 -人 (2 汪 沁 (5.48) 
芭 (5.49) 
芝 二 定 wo- (5.50) 
ne -0) (5.51) 
了 0 _ (5.52) 


佑 计量 方差 的 下 降 速 率 是 关于 数据 集 样本 数目 mm 的 本 数 。 这 是 常见 估计 量 的 普遍 性 
质 ， 在 探讨 一 致 性 (参考 第 5.4.5 节 ) 时 ， 我 们 会 继续 讨论 。 











5.4.4 权衡 偏差 和 方差 以 最 小 化 均 方 误差 


偏差 和 方差 度量 着 估计 量 的 两 个 不 同 误差 来 源 。 偏 差 度 量 着 偏离 真实 困 数 或 参 
数 的 误差 期 望 。 而 方差 度量 着 数据 上 任意 特定 采样 可 能 导致 的 估计 期 望 的 偏差 。 

当 我 们 可 以 在 一 个 偏差 更 大 的 估计 和 一 个 方差 更 大 的 估计 中 进行 选择 时 ， 会 发 
生 什么 呢 ? 我 们 该 如 何 选择 ? 例如 ， 想 象 我 们 和 希望 近似 图 5.2 中 的 函数 ， 我 们 只 可 以 
选择 一 个 偏差 较 大 的 估计 或 一 个 方差 较 大 的 估计 ， 我 们 该 如 何 选择 呢 ? 

判断 这 种 权衡 最 党 用 的 方法 是 交叉 验证 。 经 验 上 , 交叉 验证 在 真实 世界 的 许多 任 
务 中 都 非常 成 功 。 另 外 , 我 们 也 可 以 比较 这 些 估计 的 均 方 误差 (mean squared error， 
MSE ): 



















































































MSE = 正 [(0。 一 0)?] (5.53) 
= Bias(b)2 十 Var(O) (5.54) 











MSE 度 量 着 估计 和 真实 参数 0 之 间 平 方 误差 的 总 体 期 望 往 差 。 如 式 (5.54) 所 示 ， 
MSE 估计 包含 了 偏差 和 方差 。 理 想 的 估计 具有 较 小 的 MSE 或 是 在 检查 中 会 稍微 约 
束 它 们 的 偏差 和 方差 。 

偏差 和 方差 的 关系 和 机 器 学 习 容 量 、 欠 拟 合 和 过 拟 合 的 概念 紧密 相 联 .用 MSE 度 
量 泛 化 误差 ( 偏差 和 方差 对 于 泛 化 误差 都 是 有 意义 的 ) 时 , 增加 容量 会 增加 方差 ， 降 
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低 俩 差 。 如 图 5.6 所 示 ， 我 们 再 次 在 关于 容量 的 函数 中 ,看 到 泛 化 误差 的 U 形 曲 线 。 







Underfitting zone Overfitting zone 


Generalization 

















Optimal Capacity 

capacity 
图 5.6: 当 容 量 增 大 〈z 轴 ) 时 ， 偏 差 〈 用 点 表示 ) 随 之 减 小 ， 而 方差 (虚线 ) 随 之 增 大 ， 使 得 泛 
化 误差 〈 加 粗 曲 线 ) 产生 了 另 一 种 U 形 。 如 果 我 们 治 着 轴 改 变 容量 ， 会 发 现 最 佳 容量 ， 当 容量 小 








于 最 佳 容量 会 呈现 欠 拟 合 ， 大 于 时 导致 过 拟 合 。 这 种 关系 与 第 5.2 节 以 及 岁 5.3 中 讨论 的 容量 、 欠 
拟 合 和 过 拟 合 之 间 的 关系 类 似 。 





5.4.5 ”一致 性 


目前 我 们 已 经 探讨 了 固定 大 小 训练 集 下 不 同 佑 计量 的 性 质 。 通 常 ， 我 们 也 会 关 
注 训 练 数据 增多 后 佑 计量 的 效果 。 特 别 地 ， 我 们 希望 当 数 据 集中 数据 点 的 数量 mm 增 
加 时 ， 点 估计 会 收敛 到 对 应 参数 的 真实 值 。 更 形式 地 ， 我 们 想 要 


plim 0 =0. (5.55) 


7 一 CO“ 7 


符号 plim 表示 依 概 率 收敛 ， 即 对 于 任意 的 e> 0,， 当 兽人 一 co 时， 有 P( 嫩 一 外 > 
ec) 一 0。 式 (5.55) 表 示 的 条 件 被 称 为 一 致 性 (consistency )。 有 时 它 是 指 弱 一 致 性 ， 
强 一 致 性 是 指 几 乎 必然 (almost sure ) 从 6 收敛 到 0。 几乎 必然 收敛 (almost sure 
convergence ) 是 指 当 pllimnw yxeo?) = z) = 工时 ， 随 机 变量 序列 x 疏 ，x2 ，..… 收 
敛 到 z。 

一 致 性 保证 了 估计 量 的 偏差 会 随 数据 样本 数目 的 增多 而 减少 。 然 而 ， 反 过 来 是 
不 正确 的 一 一 渐 近 无 偏 并 不 意味 着 一 致 性 。 例 如 ， 考 虑 用 包含 mm 个 样本 的 数据 集 
{z, ,ze } 估计 正 态 分 布 N(z; ca2) 的 均值 参数 。 我 们 可 以 使 用 数据 集 的 第 
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一 个 样本 zG) 作为 无 偏 估计 量 : 0 = zO。 在 该 情况 下 ， 开 (0 ) = 09， 所 以 不 管 观测 
到 多 少数 据点 ， 该 佑 计量 都 是 无 侦 的 。 然 而 ， 这 不 是 一 个 一 致 舍 计 ， 因 为 它 不 满足 当 


70 一 oo 时 ， 0 人 0。 


























5.5 “最 大 似 然 估 计 


之 前 ， 我 们 已 经 看 过 常用 估计 的 定义 ， 并 分 析 了 它们 的 性 质 。 但 是 这 些 估计 是 
从 哪里 来 的 呢 ? 我 们 希望 有 些 准 则 可 以 让 我 们 从 不 同 模型 中 得 到 特定 函数 作为 好 的 
估计 ， 而 不 是 猜测 某 些 函数 可 能 是 好 的 估计， 然后 分 析 其 偏差 和 方差 。 

最 常用 的 准则 是 最 大 似 然 佑 计 。 

考虑 一 组 含有 mm 个 样本 的 数据 集 又 = {zt), ,zt")}， 独 立地 由 未 知 的 真实 数 
据 生成 分 布 Daata(X) 生成 。 

令 Dmodel(X; O0) 是 一 族 由 O 确定 在 相同 空间 上 的 概率 分 布 。 换言之 ， Damodel(Z; O0) 
将 任意 输入 z 映射 到 实数 来 估计 真实 概率 paata(z)。 

对 9 的 最 大 似 然 估计 被 定义 为 : 











Or = argmaxDpmnodel(X; 0)， (5.56) 
6 
= ;0 5.57 
argInaX model(Z ;0). 
8 JJ del( ) 人 ) 


多 个 概率 的 乘积 会 因 很 多 原因 不 便于 计算 。 例 如 ， 计 算 中 很 可 能 会 出 现 数值 
下 溢 。 为 了 得 到 一 个 便于 计算 的 等 价 优化 问题 ， 我 们 观察 到 似 然 对 数 不 会 改变 其 
argmax 但 是 将 乘积 转化 成 了 便于 计算 的 求 和 形式 : 





OMi 一 号 log paoael(zG; 0). (5.58) 
因为 当 我 们 重新 缩放 代价 函数 时 argmax 不 会 改变 ， 我 们 可 以 除 以 mm 得 到 和 训练 数 
据 经 验 分 布 Pasta 相关 的 期 望 作为 准则 : 

















OMa = argmax 了 pu。 logpaodel(z; 9). (5.59) 
6 


一 种 解释 最 大 似 然 佑 计 的 观点 是 将 它 看 作 最 小 化 训练 集 上 的 经 验 分 布 Baata 和 模 
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型 分 布 之 间 的 差异 ， 两 者 之 间 的 差异 程度 可 以 通过 KL 散 度 度量 。KL 散 度 被 定义 为 











Drr(Paata||pmoael) 一 下 二 log Pasta(z) ES log pmodel(z)|. (5.60) 





左边 一 项 仅 涉及 到 数据 生成 过 程 ， 和 模型 无 关 。 这 意味 着 当 我 们 训练 模型 最 小 化 KL 
散 度 时 ， 我 们 只 需要 最 小 化 











0 全 llog Dmodel(2)]， (5.61) 





当然 ， 这 和 式 (5.59) 中 最 大 化 是 相同 的 。 

最 小 化 KL 散 度 其 实 就 是 在 最 小 化 分 布 之 间 的 交叉 烂 。 许 多 作者 使 用 术语 “ 交 
又 精 ” 特 定 表示 伯 努 利 或 softmax 分 布 的 负 对 数 似 然 ， 但 那 是 用 词 不 当 的 。 任 何 一 
个 由 负 对 数 似 然 组 成 的 损失 都 是 定义 在 训练 集 上 的 经 验 分 布 和 定义 在 模型 上 的 概率 
分 布 之 间 的 交叉 和 。 例 如 ， 均 方 误差 是 经 验 分 布 和 高 斯 模型 之 间 的 交叉 箭 。 

我 们 可 以 将 最 大 似 然 看 作 是 使 模型 分 布 尽 可 能 地 和 经 验 分 布 fasta 相 匹配 的 洽 
试 。 理 想 情况 下 ， 我 们 希望 匹配 真实 的 数据 生成 分 布 paata， 但 我 们 没 法 直接 知道 这 
个 分 布 。 

虽然 最 优 9 在 最 大 化 似 然 或 是 最 小 化 KL 散 度 时 是 相同 的 ， 但 目标 函数 值 是 不 
一 样 的 。 在 软件 中 ， 我 们 通常 将 两 者 都 称 为 最 小 化 代价 函数 。 因 此 最 大 化 似 然 变 成 
了 最 小 化 负 对 数 似 然 (NLL)， 或 者 等 价 的 是 最 小 化 交叉 。 将 最 大 化 似 然 看 作 最 小 
化 KKL 散 度 的 视角 在 这 个 情况 下 是 有 帮助 的 ， 因 为 已 知 KL 散 度 最 小 值 是 零 。 当 z 
取 实 数 时 ， 负 对 数 似 然 是 负 值 。 








5.5.1 条件 对 数 似 然 和 均 方 误差 


最 大 似 然 佑 计 很 容易 扩展 到 佑 计 条 件 概率 P(y | x;9)， 从 而 给 定 x 预测 y。 实 
际 上 这 是 最 常见 的 情况 ， 因 为 这 构成 了 大 多 数 监督 学 习 的 基础 。 如 果 蕊 表示 所 有 的 
输入 ， 世 表 示 我 们 观测 到 的 目标 ， 那 么 条 件 最 大 似 然 估 计 是 


Or = argmax 忆 ( 王 | X 0). (5.62) 
8 
如 果 假 设 样本 是 独立 同 分 布 的 ， 那 么 这 可 以 分 解 成 


Or =arg max 》 log P(y | z0; 0). (5.63) 
2 ， 记 1 
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示例 : 线性 回归 作为 最 大 似 然 ” 第 5.1.4 节 介绍 的 线性 回归 ， 可 以 被 看 作 是 最 大 似 然 
过 程 。 之 前 ， 我 们 将 线性 回归 作为 学 习 从 输入 z 映射 到 输出 访 的 算法 。 从 z 到 乡 的 
映射 选 自 最 小 化 均 方 误差 〈 我 们 或 多 或 少 介绍 的 一 个 标准 )。 现 在 ， 我 们 以 最 大 似 然 
估计 的 角度 重新 审视 线性 回归 。 我 们 现在 希望 模型 能 够 得 到 条 件 概 率 p(y | zj) ， 而 不 
只 是 得 到 一 个 单独 的 预测 。 想象 有 一 个 无 限 大 的 训练 集 ， 我们 可 能 会 观测 到 几 个 训 
练 样本 有 相同 的 输入 z 但 是 不 同 的 y。 现在 学 习 算 法 的 目标 是 拟 合 分 布 p(y | zj) 到 和 
Z 相 匹 配 的 不 同 的 y。 为 了 得 到 我 们 之 前 推导 出 的 相同 的 线性 回归 算法 ， 我 们 定义 
pz =NWOic ,ac2)。 困 数 1ci ww) 预测 高 斯 的 均值 。 在 这 个 例子 中 ， 我 们 假 
设 方差 是 用 户 固定 的 某 个 常量 c?。 这 种 函数 形式 p(y | z) 会 使 得 最 大 似 然 估 计 得 出 
和 之 前 相同 的 学 习 算 法 。 由 于 假设 样本 是 独立 同 分 布 的 ， 条 件 对 数 似 然 〈 式 (5.63) ) 
如 下 




















>》 logp(0 | z00;g) (5.64) 
4 一 
| 


202 





ma 
= 一 mlogc 一 全 log(2r) 间 亚 (5.65) 
党 二 








其 中 多 9 是 线性 回归 在 第 ， 个 输入 z9 上 的 输出 ，m 是 训练 样本 的 数目 。 对 比 均 方 
误差 和 对 数 似 然 ， 


于 
> 六 G) 1 
MSEtain 1 7 用 | V | ) (5.66) 
我 们 立刻 可 以 看 出 最 大 化 关于 w 的 对 数 似 然 和 最 小 化 均 方 误差 会 得 到 相同 的 参数 佑 


计 w。 但 是 对 于 相同 的 最 优 w， 这 两 个 准则 有 着 不 同 的 值 。 这 验证 了 MSE 可 以 用 
于 最 大 似 然 佑 计 。 正 如 我 们 将 看 到 的 ， 最 大 似 然 估计 有 几 个 理想 的 性 质 。 





5.5.2 ”最 大 似 然 的 性 质 

最 大 似 然 估计 最 吸引 人 的 地 方 在 于 ， 它 被 证 明 当 样本 数目 mm 一 co 时 ， 就 收敛 
率 而 言 是 最 好 的 渐 近 估计 。 

在 合适 的 条 件 下 ， 最 大 似 然 估 计 具 有 一 致 性 (参考 第 5.4.5 节 )， 意 味 着 训练 样 
本 数目 趋向 于 无 穷 大 时 ， 参 数 的 最 大 似 然 估 计 会 收敛 到 参数 的 真实 值 。 这 些 条 件 是 : 





@ 真实 分 布 Dadata 必须 在 模型 族 Damoadel(.; O0) 中 。 否则 》 没有 估计 可 以 还 原 Dadatao 
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。 真 实 分 布 ps 必须 刚好 对 应 一 个 9 值 。 否 则 ， 最 大 似 然 估计 恢复 出 真实 分 布 
pasta 后 ， 也 不 能 决定 数据 生成 过 程 使 用 哪个 9。 








除了 最 大 似 然 估 计 ， 还 有 其 他 的 归纳 准则 ， 其 中 许多 共享 一 致 估计 的 性 质 。 然 
而 ,一 致 估计 的 统计 效率 ( statistic e 重 ciency ) 可 能 区 别 很 大 。 某 些 一 致 估计 可 能 会 
在 固定 数目 的 样本 上 获得 一 个 较 低 的 泛 化 误差 ， 或 者 等 价 地 ， 可 能 只 需要 较 少 的 样 
本 就 能 达到 一 个 固定 程度 的 谤 化 误差 。 

统计 效率 通常 用 于 有 参 情况 ( parametric case ) 的 研究 中 (例如 线性 回归 )。 有 
参 情 况 中 我 们 的 目标 是 估计 参数 值 (假设 有 可 能 确定 真实 参数 )， 而 不 是 函数 值 。 一 
种 度量 我 们 和 真实 参数 相差 多 少 的 方法 是 计算 均 方 误差 的 期 望 ， 即 计算 mm 个 从 数据 
生成 分 布 中 出 来 的 训练 样本 上 的 估计 参数 和 真实 参数 之 间 差 值 的 平方 。 有 参 均 方 误 
差 估 计 随 着 mm 的 增加 而 减少 ， 当 mm 较 大 时 ，Cramekr-Rao 下 界 (Rao, 1945; Cramer， 
1946) 表明 不 存在 均 方 误差 低 于 最 大 似 然 估 计 的 一 致 估计 。 

因为 这 些 原 因 一致 性 和 统计 效率 )， 最 大 似 然 通常 是 机 器 学 习 中 的 首选 估计 。 
当 样 本 数目 小 到 会 发 生 过 拟 合 时 ， 正 则 化 策略 如 权重 衰减 可 用 于 获得 训练 数据 有 限 
时 方差 较 小 的 最 大 似 然 有 偏 版 本 。 














5.6 “ 贝 叶 斯 统计 


至 此 我 们 已 经 讨论 了 频率 派 统计 ( frequentist statistics ) 方法 和 基于 估计 单一 
值 2 的 方法 ， 然 后 基于 该 估计 作 所 有 的 预测 。 另 一 种 方法 是 在 做 预测 时 会 考虑 所 有 
可 能 的 6。 后 者 属于 贝 叶 斯 统计 (Bayesian statistics ) 的 范畴 。 

正如 第 5.4.1 节 中 讨论 的 ， 频 率 派 的 视角 是 真实 参数 9 是 未 知 的 定 值 ， 而 点 估计 
0 是 考虑 数据 集 上 函数 (可 以 看 作 是 随机 的 ) 的 随机 变量 。 

贝 叶 斯 统计 的 视角 完全 不 同 。 贝 叶 斯 用 概率 反映 知识 状态 的 确定 性 程度 。 数 据 
集 能 够 被 直接 观测 到 ， 因 此 不 是 随机 的 。 另 一 方面 ， 真 实 参数 9 是 未 知 或 不 确定 的 ， 
因此 可 以 表示 成 随机 变量 。 

在 观察 到 数据 前 ， 我 们 将 6 的 已 知 知识 表示 成 先 验 概率 分 布 (prior probability 
distribution )，p(9) (有 时 简单 地 称 为 “ 先 验 ”)。 一 般 而 言 ， 机 器 学 习 实 践 者 会 选择 
一 个 相当 宽泛 的 ( 即 ， 高 箭 的 ) 先 验 分 布 ， 反 映 在 观测 到 任何 数据 前 参数 9 的 高 度 
不 确定 性 。 人 例如， 我们 可 能 会 假设 先 验 0 在 有 限 区 间 中 均匀 分 布 。 许 多 先 验 偏好 于 
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“更 简单 ”的 解 〈《 如 小 幅度 的 系数 ， 或 是 接近 常数 的 国 数 )。 

现在 假设 我 们 有 一 组 数据 样本 {z4),...,z6o?)}。 通 过 贝 叶 斯 规则 结合 数据 似 然 
p(z0) ,Zoo9 |9) 和 先 验 ， 我 们 可 以 恢复 数据 对 我 们 关于 6 信念 的 影响 : 
到 (全 三 生 全 | 击 克 昌 

D(ZUD，..,Z(O)) 
在 贝 叶 斯 估计 常用 的 情景 下 ， 移 验 开始 是 相对 均匀 的 分 布 或 高 箭 的 高 斯 分 布 ， 观 测 
数据 通常 会 使 后 验 的 箭 下 降 ， 并 集中 在 参数 的 几 个 可 能 性 很 高 的 值 。 

相对 于 最 大 似 然 佑 计 ， 贝 叶 斯 佑 计 有 两 个 重要 区 别 。 第 一 , 不 像 最 大 似 然 方法 预 
测 时 使 用 8 的 点 估计 ， 贝 叶 斯 方法 使 用 8 的 全 分 布 。 例 如 ， 在 观测 到 mm 个 样本 后 ， 
下 一 个 数据 样本 zw"+0 的 预测 分 布 如 下 : 


D(O | zzt90) 一 





(5.67) 














plztm+D | zz(m) 一 |/ plztn4D | 9)p(g| zz) ug， (5.68) 





这 里 ， 每 个 具有 正 概率 密度 的 9 的 值 有 助 于 下 一 个 样本 的 预测 ， 其 中 贡献 由 后 验 密 
度 本 身 加 权 。 在 观测 到 数据 集 {z 避 ,. ,zt6o} 之 后 ， 如 果 我 们 仍然 非常 不 确定 6 的 
值 ， 那 么 这 个 不 确定 性 会 直接 包含 在 我 们 所 做 的 任何 预测 中 。 

在 第 5.4 节 中 ,我们 已 经 探讨 频率 派 方法 解决 给 定点 估计 8 的 不 确定 性 的 方法 
是 评 佑 方差， 估计 的 方差 评估 了 观测 数据 重新 从 观测 数据 中 采样 后 ， 佑 计 可 能 如 何 
变化 。 对 于 如 何 处 理 估计 不 确定 性 的 这 个 问题 ， 贝 叶 斯 派 的 答案 是 积分 ， 这 往往 会 
防止 过 拟 合 。 当 然 ， 积 分 仅仅 是 概率 法 则 的 应 用 ， 使 贝 叶 斯 方法 容易 验证 ， 而 频率 
派 机 器 学 习 基 于 相当 特别 的 决定 构建 了 一 个 佑 计 ， 将 数据 集 里 的 所 有 信息 归纳 到 一 
个 单独 的 点 估计 。 

贝 叶 斯 方法 和 最 大 似 然 方法 的 第 二 个 最 大 区 别 是 由 贝 叶 斯 先 验 分 布 造成 的 。 先 
验 能 够 影响 概率 质量 密度 朝 参数 空间 中 俩 好 移 验 的 区 域 俩 移 。 实 践 中 ， 先 验 通常 表 
现 为 侦 好 更 简单 或 更 光滑 的 模型 。 对 贝 叶 斯 方法 的 批判 认为 移 验 是 人 为 主观 判断 影 
响 预 测 的 来 源 。 

当 训 练 数据 很 有 限时 ， 贝 叶 斯 方法 通常 泛 化 得 更 好 ， 但 是 当 训 练 样本 数目 很 大 
时 ， 通 常会 有 很 大 的 计算 代价 。 





























示例 : 贝 叶 斯 线性 回归 ”我 们 使 用 贝 叶 斯 估计 方法 学 习 线 性 回归 的 参数 。 在 线性 回 
归 中 ， 我 们 学 习 从 输入 向 量 zs 陈 "” 预测 标量 y E 形 的 线性 映射 。 该 预测 由 向 量 
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W E 了” 人 参数 化 : 
作 一 7z. (5.69) 
给 定 一 组 mm 个 训练 样本 (Xi ,yeai)， 我 们 可 以 表示 整个 训练 集 对 y 的 预测 : 
久 5em) 一 和 Grain)a. (5.70) 
表示 为 Yireim) 上 的 高 斯 条 件 分 布 ， 我 们 得 到 
关 人 | 次 汐 二 有 全 天 玖 (5.71) 


工 。 
cc exp ( -ie 和 (train) 40) (2train) (train) 中】 ， 


5.72) 





其 中 ， 我 们 根据 标准 的 MSBE 公 式 假 设 y 上 的 高 斯 方差 为 1。 在 下 文中 ， 为 减少 符号 
负担 ， 我 们 将 (Xe ysin)) 简单 表示 为 ( 马 , 几 。 

为 确定 模型 参数 向 量 w 的 后 验 分 布 ， 我 们 首先 需要 指定 一 个 先 验 分 布 。 先 验 应 
该 反映 我 们 对 这 些 参数 取 值 的 信念 。 虽 然 有 时 将 我 们 的 驳 验 信念 表示 为 模型 的 参数 
很 难 或 很 不 自然 ， 但 在 实践 中 我 们 通常 假设 一 个 相当 广泛 的 分 布 来 表示 8 的 高 度 不 
确定 性 。 实 数值 参数 通常 使 用 高 斯 作为 匈 验 分 布 : 








D(Uw) = WU Ho,Ao) cc exp ( -ie 一 Ano)I AT (w 一 oo ， (5.73) 





其 中 ，Hho 和 Auo 分 别 是 先 验 分 布 的 均值 向 量 和 协 方差 矩阵 。} 
确定 好 先 验 后 ， 我 们 现在 可 以 继续 确定 模型 参数 的 后 验 分 布 。 


pw| 成 切 w plg| 成 切 p( (5.7g) 
xe( -3 Xue 和)e(-io-poTAnoma 
(5.75) 


工 
CC eXp (- (一 2 瑟 w 十 刀 瑟 " 古 0 十 WAUiuw 一 2ufAi 


(5.76) 
































+ 除非 有 理由 使 用 协 方差 矩阵 的 特定 结构 ， 我 们 通常 假设 其 为 对 角 协 方差 矩阵 Ao = diag( 和 o)。 
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现在 我 们 定义 Am = (XI 和 +ATD- 种 =An(X +ATIno)。 使 用 这 些 新 的 
变量 ， 我 们 发 现 后 验 可 改写 为 高 斯 分 布 : 








pwl 天 人 xemp(-iw-uoTrAR(o-uo+3ARun) 人 7 
CC exp (-j 一 Am) AD(w 一 ou (5.78) 


分 布 的 积分 必须 归 一 这 个 事实 意味 着 要 删 去 所 有 不 包括 参数 向 量 记 的 项 。 式 (3.23) 显 
示 了 如 何 标准 化 多 元 高 斯 分 布 。 

驹 查 此 后 验 分 布 可 以 让 我 们 获得 贝 叶 斯 推断 效果 的 一 些 直 觉 。 大 多 数 情 况 下 ， 
我 们 设置 po = 0。 如 果 我 们 设置 A = : 工 那 么 pr 对 w 的 估计 就 和 频率 派 带 权重 
衰减 惩罚 aao rw 的 线性 回归 的 估计 是 一 样 的 。 一 个 区 别 是 若 a 设 为 0 则 贝 叶 斯 佑 
计 是 未 定义 的 一 一 我 们 不 能 将 贝 叶 斯 学 习 过 程 初 始 化 为 一 个 无 限 宽 的 w 先 验 。 更 重 
要 的 区 别 是 贝 叶 斯 估计 会 给 出 一 个 协 方差 矩阵 ， 表 示 w 所 有 不 同 值 的 可 能 范围 ， 而 
不 仅 是 估计 WUm。 





5.6.1 ”最 大 后 验 (MAP) 估计 


原则 上 ， 我 们 应 该 使 用 参数 9 的 完整 贝 叶 斯 后 验 分 布 进行 预测 ， 但 单 点 佑 计 
常 名 也 是 需要 的 。 和 希望 使 用 点 估计 的 一 个 常见 原因 是 ， 对 于 大 多 数 有 意义 的 模型 而 
言 ， 大 多 数 涉及 到 贝 叶 斯 后 验 的 计算 是 非常 赫 手 的 ， 点 估计 提供 了 一 个 可 行 的 近似 
解 。 我 们 仍然 可 以 让 先 验 影响 点 估计 的 选择 来 利用 贝 叶 斯 方法 的 优点 ， 而 不 是 简单 
地 回 到 最 大 似 然 佑 计 。 一 种 能 够 做 到 这 一 点 的 合理 方式 是 选择 最 大 后 验 ( Maximum 
A Posteriori MAP ) 点 估计。MAP 估计 选择 后 验 概率 最 大 的 点 〈 或 在 0 是 连续 值 
的 更 常见 情况 下 ， 概 率 密 度 最 大 的 点 小 





OvAp = argmaxp(O 1z)=argmaxlogplz|0) 十 logDp(0). (5.79) 
6 6 


我 们 可 以 认 出 上 式 右 边 的 logp(z| 9) 对 应 着 标准 的 对 数 似 然 项 ，logp(6) 对 应 着 先 
验 分 布 。 

例如 ， 考 虑 具有 高 斯 先 验 权 重 w 的 线性 回归 模型 。 如 果 先 验 是 Nu 0, 六 疡 )， 
那么 式 (5.79) 的 对 数 先 验 项 正比 于 熟悉 的 权重 衰减 惩罚 Xw ww， 加 上 一 个 不 依赖 于 
也 也 不 会 影响 学 习 过 程 的 项 。 因 此 ， 具 有 高 斯 先 验 权 重 的 MAP 贝 叶 斯 推断 对 应 着 权 
重 衰减 。 
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正如 全 贝 叶 斯 推 亲 ，MAP 贝 叶 斯 推 灯 的 优势 是 能 够 利用 来 自 先 验 的 信息 ， 这 些 
言 息 无 法 从 训练 数据 中 获得 。 该 附加 信息 有 助 于 减少 最 大 后 验 点 估计 的 方差 〈《 相 比 
于 ML 估计 )。 然 而 ， 这 个 优点 的 代价 是 增加 了 偏差 。 

许多 正规 化 估计 方法 ， 例 如 权重 衰减 正则 化 的 最 大 似 然 学 习 ， 可 以 被 解释 为 贝 
叶 斯 推断 的 MAP 近似 。 这 个 适应 于 正则 化 时 加 到 目标 函数 的 附加 项 对 应 着 log p(6)。 
并 非 所 有 的 正则 化 惩罚 都 对 应 着 MAP 贝 叶 斯 推 基 。 例 如 , 有 些 正 则 化 项 可 能 不 是 一 
个 概率 分 布 的 对 数 。 还 有 些 正 则 化 项 依赖 于 数据 ， 当 然 也 不 会 是 一 个 先 验 概率 分 布 。 

MAP 贝 叶 斯 推 产 提供 了 一 个 直观 的 方法 来 设计 复杂 但 可 解释 的 正则 化 项 。 例 
如 ， 更 复杂 的 惩罚 项 可 以 通过 混合 高 斯 分 布 作为 先 验 得 到 ， 而 不 是 一 个 单独 的 高 斯 
分 布 (Nowlan and Hinton, 1992)。 

















5.7 监督 学 习 算 法 


回顾 第 5.1.3 节 ， 粗 略 地 说 ， 监 督学 习 算 法 是 给 定 一 组 输入 z 和 输出 y 的 训练 
集 ， 学 习 如 何 关联 输入 和 输出 。 在 许多 情况 下 ， 和 输出 y 很 难 自 动 收集 ， 必 须 由 人 来 
提供 “监督 ”， 不 过 该 术语 仍然 适用 于 训练 集 目标 可 以 被 自动 收集 的 情况 。 





5.7.1 概率 监督 学 习 





本 书 的 大 部 分 监督 学 习 算 法 都 是 基于 佑 计 概 率 分 布 py | z) 的 。 我 们 可 以 使 用 最 
大 似 然 佑 计 找 到 对 于 有 参 分 布 族 p(y | 9) 最 好 的 参数 向 量 9。 
我 们 已 经 看 到 ， 线 性 回归 对 应 于 分 布 族 








2 zi 9)=NO50 站 . (5.80) 


通过 定义 一 族 不 同 的 概率 分 布 ， 我 们 可 以 将 线性 回归 扩展 到 分 类 情况 中 。 如 果 我 们 
有 两 个 类 ， 类 0 和 类 1， 那 么 我 们 只 需要 指定 这 两 类 之 一 的 概率 。 类 1 的 概率 决定 
了 类 0 的 概率 ， 因 为 这 两 个 值 加 起 来 必须 等 于 1。 

我 们 用 于 线性 回归 的 实数 正 态 分 布 是 用 均值 参数 化 的 。 我 们 提供 这 个 均值 的 任 
何 值 都 是 有 效 的 。 二 元 变量 上 的 分 布 稍微 复杂 些 ， 因 为 它 的 均值 必须 始终 在 0 和 1 
之 间 。 解 决 这 个 问题 的 一 种 方法 是 使 用 logistic sigmoid 本 数 将 线性 函数 的 输出 压缩 
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进 区 间 (0,1)。 该 值 可 以 解释 为 概率 : 
Dp =1|zm0)= af 2z). (5.81) 

这 个 方法 被 称 为 逻辑 回归 (logistic regression )， 这 个 名 字 有 点 奇怪 ， 因 为 该 模型 用 
于 分 类 而 非 回归 。 

线性 回归 中 ， 我 们 能 够 通过 求解 正规 方程 以 找到 最 佳 权 重 。 相 比 而 言 ， 逻 辑 回 
归 会 更 困难 些 。 其 最 佳 权重 没有 闭 解 。 反 之 ， 我 们 必须 最 大 化 对 数 似 然 来 搜索 最 优 
解 。 我 们 可 以 通过 梯度 下 降 算 法 最 小 化 负 对 数 似 然 来 搜索 。 

通过 确定 正确 的 输入 和 输出 变量 上 的 有 参 条 件 概 率 分 布 族 ， 相 同 的 策略 基本 上 
可 以 用 于 任何 监督 学 习 问题 。 

















5.7.2 ”支持 向 量 机 








支持 向 量 机 (support vector machine, SVM ) 是 监督 学 习 中 最 有 影响 力 的 方法 
之 一 (Boser et wo/.,， 1992; Cortes and Vapnik, 1995)。 类 似 于 逻辑 回归 ， 这 个 模型 也 
是 基于 线性 函数 wz+ 的 。 不 同 于 逻辑 回归 的 是 ,支持 向 量 机 不 输出 概率 ， 只 输 
出 类 别 。 当 wz 二 tb 为 正 时 ， 支 持 回 量 机 预测 属于 正 类 。 类 似 地 ， 当 wz 十 b 为 负 
时 ， 支 持 向 量 机 预测 属于 负 类 。 

支持 向 量 机 的 一 个 重要 创新 是 核 技巧 (kernel trick )。 核 技巧 观察 到 许多 机 需 学 
习 算 法 都 可 以 写成 样本 间 点 积 的 形式 。 例 如 ， 支 持 向 量 机 中 的 线性 函数 可 以 重 写 为 



































Z 十 六 一 十 》 az az0， (5.82) 
记 1 
其 中 ，z(G) 是 训练 样本 ，a 是 系数 向 量 。 学 习 算 法 重 写 为 这 种 形式 允许 我 们 将 z 替 
换 为 特征 冰 数 g(z) 的 输出 ， 点 积 替 换 为 被 称 为 核 函 数 ( kernel function ) 的 酚 数 
kz 2Z9D) = 罗 z) .gz0)。 运 算 符 . 表示 类 侯 于 gm ob(z9) 的 点 积 。 对 于 某 些 特 
征 空间 ， 我 们 可 能 不 会 书面 地 使 用 向 量 内 积 。 在 某 些 无 限 维 空间 中 ， 我 们 需要 使 用 
其 他 类 型 的 内 积 ， 如 基于 积分 而 非 加 和 的 内 积 。 这 种 类 型 内 积 的 完整 介绍 超出 了 本 
书 的 范围 。 
使 用 核 估 计 蔡 换 点 积 之 后 ， 我 们 可 以 使 用 如 下 函数 进行 预测 











jz] =D 二 》 ok(a z09)， (5.83) 
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这 个 函数 关于 z 是 非 线 性 的 ， 关 于 w(z) 是 线性 的 。a 和 jz) 之 间 的 关系 也 是 线性 
的 。 核 冰 数 完全 等 价 于 用 dz) 预 处 理 所 有 的 输入 ， 然 后 在 新 的 转换 空间 学 习 线性 模 
型 。 











核 技巧 十 分 强大 有 两 个 原因 。 首 先 ， 它 使 我 们 能 够 使 用 保证 有 效 收 敛 的 凸 优化 
技术 来 学 习 非 线性 模型 (关于 z 的 函数 )。 这 是 可 能 的 ， 因 为 我 们 可 以 认为 % 是 固 
定 的 ， 仅 优化 w， 即 优化 算法 可 以 将 决策 函数 视 为 不 同 空间 中 的 线性 函数 。 其 二 ， 核 
函数 大 的 实现 方法 通常 有 比 直接 构建 W(z) 再 算 点 积 高 效 很 多 。 

在 某 些 情况 下 ，4g(z) 甚至 可 以 是 无 限 维 的 ， 对 于 普通 的 显 式 方法 而 言 ， 这 将 是 
无 限 的 计算 代价 。 在 很 多 情况 下 ， 即 使 gz) 是 难 算 的 ，j(z, zw) 却 会 是 一 个 关于 z 
非 线性 的 、 易 算 的 函数 。 举 个 无 限 维 空间 易 算 的 核 的 例子 ， 我 们 构建 一 个 作用 于 非 
负 整数 > 上 的 特征 映射 Wz)。 假 设 这 个 映射 返回 一 个 由 开头 z 个 1， 随 后 是 无 限 个 
0 的 向 量 。 我 们 可 以 写 一 个 核 函 数 K(z,z@) = min(z,zG9)， 完 全 等 价 于 对 应 的 无 限 




















最 常用 的 核 郴 数 是 高 斯 核 ( Gaussian kernel )， 


KW 一 Nu 一 让 0 站 )， (5.84) 





其 中 NMW(zi 册 允 ) 是 标准 正 态 密 度 。 这 个 核 也 被 称 为 径 向 基 函 数 ( radial basis func- 
tion, RBF ) 核 ， 因 为 其 值 沿 v 中 从 习 向 外 辐射 的 方向 减 小 。 高 斯 核对 应 于 无 限 维 空 
间 中 的 点 积 ， 但 是 该 空间 的 推导 没有 整数 上 最 小 核 的 示例 那么 直观 。 

我 们 可 以 认为 高 斯 核 在 执行 一 种 模板 匹配 (template matching)。 训 练 标 签 y 相 
关 的 训练 样本 z 变 成 了 类 别 y 的 模版 。 当 测试 点 允 到 z 的 欧 几 里 得 距离 很 小 ， 对 
应 的 高 斯 核 响应 很 大 时 ， 表 明 x” 和 模版 z 非常 相似 。 该 模型 进而 会 赋予 相对 应 的 训 
练 标签 y 较 大 的 权重 。 总 的 来 说 ， 预 测 将 会 组 合 很 多 这 种 通过 训练 样本 相似 度 加 权 
的 训练 标签 。 

支持 向 量 机 不 是 唯一 可 以 使 用 核 技巧 来 增强 的 算法 。 许 多 其 他 的 线性 模型 也 
可 以 通过 这 种 方式 来 增强 。 使 用 核 技巧 的 算法 类 别 被 称 为 核 机 器 (kernel machine ) 
或 核 方法 ( kernel method ) (Williams and Rasmnussen, 1996; Sch5lkopf et al1.，1999)。 

核 机 需 的 一 个 主要 缺点 是 计算 决策 函数 的 成 本 关于 训练 样本 的 数目 是 线性 的 。 
因为 第 ;个 样本 贡献 ok(z, zG9) 到 决策 函数 。 支 持 向 量 机 能 够 通过 学 习 主要 包含 堆 
的 向 量 w， 以 缓和 这 个 缺点 。 那 么 判断 新 样本 的 类 别 仅 需要 计算 非 零 w 对 应 的 训 
练 样本 的 核 轴 数 。 这 些 训练 样本 被 称 为 支持 向 量 (support vector )。 
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当 数据 集 很 大 时 ， 核 机 器 的 计算 量 也 会 很 大 。 我 们 将 会 在 第 5.9 节 回顾 这 个 想 
法 。 带 通用 核 的 核 机 器 致力 于 泛 化 得 更 好 。 我 们 将 在 第 5.11 节 解释 原因 。 现 代 深 
度 学 习 的 设计 旨 在 克服 核 机 器 的 这 些 限 制 。 当 前 深度 学 习 的 复兴 始 于 Hinton et ol. 
(2006b) 表明 神经 网 络 能 够 在 MNIST 基准 数据 上 胜 过 RBF 核 的 支持 向 量 机 。 





5.7.3 ”其 他 简单 的 监督 学 习 算法 


我 们 已 经 简要 介绍 过 另 一 个 非 概率 监督 学 习 算 法 ,最 近邻 回归 。 更 一 般 地 ，k- 最 
近邻 是 一 类 可 用 于 分 类 或 回归 的 技术 。 作 为 一 个 非 参 数学 习 算 法 ， 太 最 近邻 并 不 局 
限于 轩 定 数目 的 参数 。 我 们 通常 认为 太 最 近邻 算法 没有 任何 参数 ， 而 是 使 用 训练 数 
据 的 简单 函数 。 事 实 上 ， 它 甚至 也 没有 一 个 真正 的 训练 阶段 或 学 习 过 程 。 反 之 ,在 
测试 阶段 我 们 希望 在 新 的 测试 输入 z 上 产生 y， 我 们 需要 在 训练 数据 筷 上 找到 z 的 
上 -最 近邻 。 然 后 我 们 返回 训练 集 上 对 应 的 y 值 的 平均 值 。 这 几乎 适用 于 任何 类 型 可 
以 确定 y 值 平 均值 的 监督 学 习 。 在 分 类 情况 中 ， 我 们 可 以 关于 one-hot 编码 向 量 c 
求 平 均 ， 其 中 cy = 1， 其 他 的 守 值 取 ci = 0。 然 后 ,我 们 可 以 解释 这 些 one-hot 编码 
的 均值 为 类 别 的 概率 分 布 。 作 为 一 个 非 参数 学 习 算 法 ， 太 近邻 能 达到 非常 高 的 容量 。 
例如 ， 假 设 我 们 有 一 个 用 0-1 误差 度量 性 能 的 多 分 类 任务 。 在 此 设 定 中 ， 当 训练 样 
本 数目 趋向 于 无 穷 大 时 ，1- 最 近邻 收敛 到 两 倍 贝 叶 斯 误差 。 超 出 贝 叶 斯 误差 的 原因 
是 它 会 随机 从 等 距离 的 临近 点 中 随机 挑 一 个 。 而 存在 无 限 的 训练 数据 时 ， 所 有 测试 
点 卫 周 于 距离 为 零 的 邻近 点 有 无 限 多 个 。 如 果 我 们 使 用 所 有 这 些 临近 点 投票 的 决策 
方式 ， 而 不 是 随机 挑选 一 个 , 那么 该 过 程 将 会 收敛 到 贝 叶 斯 错误 率 。 访 最 近邻 的 高 容 
量 使 其 在 训练 样本 数目 大 时 能 够 获取 较 高 的 精度 。 然 而 ， 它 的 计算 成 本 很 高 ， 另 外 
在 训练 集 较 小 时 泛 化 能 力 很 差 。 大 最 近邻 的 一 个 弱点 是 它 不 能 学 习 出 哪 一 个 特征 比 
其 他 更 具 识别 力 。 例 如 ， 假 设 我 们 要 处 理 一 个 的 回归 任务 ， 其 中 ze 及 100 是 从 各 向 
同性 的 高 斯 分 布 中 抽取 的 ， 但 是 只 有 一 个 变量 zx: 和 结果 相关 。 进 一 步 假 设 该 特征 直 
接 决定 了 输出 ， 即 在 所 有 情况 中 y = Zi。 最 近邻 回归 不 能 检测 到 这 个 简单 模式 。 大 
多 数 点 2 的 最 近邻 将 取决 于 zz 到 zioo 的 大 多 数 特征 ， 而 不 是 单独 取决 于 特征 zi。 
因此 ， 小 训练 集 上 的 输出 将 会 非常 随机 。 

决策 树 (decision tree ) 及 其 变种 是 另 一 类 将 输入 空间 分 成 不 同 的 区 域 ， 每 个 区 
域 有 独立 参数 的 算法 (Breiman et al., 1984)。 如 图 5.7 所 示 ， 决 策 树 的 每 个 节点 都 与 
输入 空间 的 一 个 区 域 相 关联 ， 并 且 内 部 节点 继续 将 区 域 分 成 子 节点 下 的 子 区 域 ( 通 
常 使 用 坐标 轴 拆 分 区 域 )。 空 间 由 此 细 分 成 不 重 释 的 区 域 ， 叶 节点 和 输入 区 域 之 间 形 
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成 一 一 对 应 的 关系 。 每 个 时 结 点 将 其 输入 区 域 的 每 个 点 映射 到 相同 的 输出 。 决 策 树 
通常 有 特定 的 训练 算法 ， 超 出 了 本 书 的 范围 。 如 果 人 允许 学 习 任 意 大 小 的 决策 树 ， 那 
么 它 可 以 被 视 作 非 参数 算法 。 然 而 实践 中 通常 有 大 小 限制 ， 作 为 正则 化 项 将 其 转变 
成 有 参 模型 。 由 于 决策 树 通常 使 用 坐标 轴 相 关 的 拆 分 ， 并 且 每 个 子 节 点 关联 到 常数 
输出 ， 因 此 有 时 解决 一 些 对 于 逻辑 回归 很 简单 的 问题 很 费力 。 例 如 ， 假 设 有 一 个 二 
分 类 问题 ， 当 za > zi 时 分 为 正 类 , 则 决策 树 的 分 界 不 是 坐标 轴 对 章 的 。 因 此 , 决策 
树 将 需要 许多 节点 近似 决策 边界 ， 坐 标 轴 对 齐 使 其 算法 步骤 不 断 地 来 回 穿梭 于 真正 
的 次 策 函 数 。 

正如 我 们 已 经 看 到 的 ， 最 近邻 预测 和 决策 树 都 有 很 多 的 局 限 性 。 尽 管 如 此 ， 在 
计算 资源 受 限 制 时 ， 它 们 都 是 很 有 用 的 学 习 算 法 。 通 过 思考 复杂 算法 和 万 最 近邻 或 
决策 树 之 间 的 相似 性 和 差异 ， 我 们 可 以 建立 对 更 复杂 学 习 算法 的 直觉 。 

读者 可 以 参考 Murphy (2012); Bishop (2006); Hastie et al. (2001) 或 其 他 机 需 
学 习 教科 书 了 解 更 多 的 传统 监督 学 习 算 法 。 
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图 5.7: 描述 一 个 决策 树 如 何 工作 的 示意 图 。( 上 ) 树 中 每 个 节点 都 选择 将 输入 样本 送 到 左 子 节点 
(0) 或 者 右 子 节点 (1)。 内 部 的 节点 用 圆圈 表示 , 叶 节点 用 方块 表示 。 每 一 个 节点 可 以 用 一 个 二 值 的 
字符 串 识别 并 对 应 树 中 的 位 置 ， 这 个 字符 串 是 通过 给 起 父亲 节点 的 字符 串 添加 一 个 位 元 来 实现 的 
(0 表示 选择 左 或 者 上 ，1 表示 选择 右 或 者 下 )。( 下 ) 这 个 树 将 空间 分 为 区 域 。 这 个 二 维 平面 说 明 决 
策 树 可 以 分 割 R。 这 个 平面 中 画 出 了 树 的 节点 ， 每 个 内 部 点 穿 过 分 割 线 并 用 来 给 样本 分 类 ， 叶 节 
点 画 在 样本 所 属 区 域 的 中 心 。 结 果 是 一 个 分 块 常数 函数 ， 每 一 个 叶 节点 一 个 区 域 。 每 个 叶 需 要 至 


少 一 个 训练 样本 来 定义 ， 所 以 决策 树 不 可 能 用 来 学 习 一 个 局 部 极 大 值 比 训练 样本 数量 还 多 的 函数 。 
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5.8 ”无 监督 学 习 算 法 


回顾 第 5.1.3 节 ， 无 监督 算法 只 处 理 “ 特 征 ”， 不 操作 监督 信号 。 监 督 和 无 监督 
算法 之 间 的 区 别 没有 规范 严格 的 定义 ， 因 为 没有 客观 的 判断 来 区 分 监督 者 提供 的 值 
是 特征 还 是 目标 。 通 俗 地 说 ， 无 监督 学 习 的 大 多 数 尝试 是 指 从 不 需要 人 为 注释 的 样 
本 的 分 布 中 抽取 信息 。 该 术语 通常 与 密度 估计 相关 ， 学 习 从 分 布 中 采样 、 学 习 从 分 
布 中 去 噪 、 寻 找 数据 分 布 的 流 形 或 是 将 数据 中 相关 的 样本 聚 类 。 

一 个 经 典 的 无 监督 学 习 任务 是 找到 数据 的 “最 佳 ” 表示 。 “最 佳 ” 可 以 是 不 同 的 
表示 ， 但 是 一 般 来 说 ， 是 指 该 表示 在 比 本 身 表 示 的 信息 更 简单 或 更 易 访 问 而 受到 一 
些 惩罚 或 限制 的 情况 下 ， 尽 可 能 地 保存 关于 z 更 多 的 信息 。 

有 很 多 方式 定义 较 简单 的 表示 。 最 常见 的 三 种 包括 低 维 表示 、 稀 玻 表 示 和 独立 
表示 。 低 维 表 示 尝 试 将 z 中 的 信息 尽 可 能 压缩 在 一 个 较 小 的 表示 中 。 稀 玻 表 示 将 数 
据 集 符 入 到 输入 项 大 多 数 为 零 的 表示 中 (Barlow，1989; Olshausen and Field，1996; 
Hinton and Ghahramani, 1997)。 稀 玻 表 示 通 常用 于 需要 增加 表示 维 数 的 情况 ， 使 得 
大 部 分 为 零 的 表示 不 会 丢失 很 多 信息 。 这 会 使 得 表示 的 整体 结构 倾向 于 将 数据 分 布 
在 表示 空间 的 坐标 轴 上 。 独 立 表 示 试 图 分 开 数 据 分 布 中 变化 的 来 源 ， 使 得 表示 的 维 
度 是 统计 独立 的 。 

当然 这 三 个 标准 并 非 相 互 排斥 的 。 低 维 表示 通常 会 产生 比 原始 的 高 维 数据 具有 
较 少 或 较 弱 依赖 关系 的 元 素 。 这 是 因为 减少 表示 大 小 的 一 种 方式 是 找到 并 消除 元 余 。 
识别 并 去 除 更 多 的 元 余 使 得 降 维 算 法 在 丢失 更 少 信息 的 同时 显现 更 大 的 压缩 。 

表示 的 概念 是 深度 学 习 核 心 主题 之 一 ， 因 此 也 是 本 书 的 核心 主题 之 一 。 本 节 会 
介绍 表示 学 习 算 法 中 的 一 些 简单 示例 。 总 的 来 说 ， 这 些 示 例 算 法 会 说 明 如 何 实施 上 
面 的 三 个 标准 。 剩 余 的 大 部 分 章节 会 介绍 额外 的 表示 学 习 算 法 ， 它 们 以 不 同方 式 处 
理 这 三 个 标准 或 是 引入 其 他 标准 。 


























5.8.1 主 成 分 分 析 


在 第 2.12 节 中 ， 我 们 看 到 PCA 算法 提供 了 一 种 压缩 数据 的 方式 。 我 们 也 可 以 
将 PCA 视 为 学 习 数 据 表 示 的 无 监督 学 习 算法 。 这 种 表示 基于 上 述 简单 表示 的 两 个 标 
准 。PCA 学 习 一 种 比 原始 输入 维 数 更 低 的 表示 。 它 也 学 习 了 一 种 元 素 之 间 彼 此 没有 
线性 相关 的 表示 。 这 是 学 习 表 示 中 元 素 统计 独立 标准 的 第 一 步 。 要 实现 完全 独立 性 ， 
表示 学 习 算 法 也 必须 去 掉 变 量 间 的 非 线性 关系 。 
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如 图 5.8 所 示 ，PCA 将 输入 z 投影 表示 成 xz>， 学 习 数 据 的 正 交 线性 变换 。 在 
第 2.12 节 中 ， 我 们 看 到 了 如 何 学 习 重 建 原始 数据 的 最 佳 一 维 表示 ( 就 均 方 误差 而 
言 )， 这 种 表示 其 实 对 应 着 数据 的 第 一 个 主要 成 分 。 因 此 ,我 们 可 以 用 PCA 作为 保 
留 数据 尽 可 能 多 信息 的 降 维 方法 〈 再 次 就 最 小 重 构 误 差 平方 而 言 )。 在 下 文中 ,我 们 
将 研究 PCA 表示 如 何 使 原始 数据 表示 忆 去 相关 的 . 
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图 5.8: PCA 学 习 一 种 线性 投影 ， 使 最 大 方差 的 方向 和 新 空间 的 轴 对 齐 。( 左 ) 原始 数据 包含 了 z 
的 样本 。 在 这 个 空间 中 ,方差 的 方向 与 轴 的 方向 并 不 是 对 齐 的 。( 右 ) 变换 过 的 数据 > = z ' 酌 在 
轴 2 的 方向 上 有 最 大 的 变化 。 第 二 大 变化 方差 的 方向 沿 着 轴 22。 

















假设 有 一 个 浆 x 的 设计 矩阵 环 ， 数 据 的 均值 为 零 , 马 [z] = 0。 若 非 如 此 ， 通 
过 预 处 理 步 骤 使 所 有 样本 减 去 均值 ， 数 据 可 以 很 容易 地 中 心 化 。 
马 对 应 的 无 侦 样 本 协 方差 矩阵 给 定 如 下 


























1 
Var[z] = 二 (5.85) 
击 己 





PCA 通过 线性 变换 找到 一 个 Var[ 寺 是 对 角 和 矩阵 的 表示 z = 全 "zx。 
在 第 2.12 节 ， 我 们 已 知 设计 矩阵 瑟 的 主 成 分 由 己 " 环 的 特征 向 量 给 定 。 从 这 个 
角度 ， 我 们 有 
和 XXX = HA 及. (5.86) 
本 节 中 ， 我 们 会 探索 主 成 分 的 另 一 种 推导 。 主 成 分 也 可 以 通过 奇异 值 分 解 (SVD) 得 
到 。 有 具体 来 说 ， 它 们 是 忆 的 右 奇 异 向 量 。 为 了 说 明 这 点 ， 假 设 例 是 奇异 值 分 解 
忆 = [ 轧 全 -的 右 奇异 向 量 。 以 环 作为 特征 向 量 基 ,我 们 可 以 得 到 原来 的 特征 向 量 
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方程 : 
忆 和 = (IJ) 了 太 = 歼 22 . (5.87) 


SVD 有 助 于 说 明 PCA 后 的 Var[z 是 对 角 的 。 使 用 飞 的 SVD 分 解 ， 下 的 方差 
可 以 表示 为 





Var[z] = (5.88) 
工 未 S 下 十 
= 元 -TIZZ ) Z 刀 全 (5.89) 
1 本 
= 二 用 IT (5.90) 
7 
1 汪汪 
汪汪 全 .91 
一 TIWzZ 丽 ， (5.91) 





其 中 ， 我 们 使 用 过 = 碾 因为 根据 奇异 值 的 定义 矩阵 如 是 正 交 的 。 这 表明 z 的 
协 方差 满足 对 角 的 要 求 : 





1 
Var[ 才 = 二 2 2 (5.92) 
击 三 
1 二 
= 一 本 [XXX 剑 (5.93) 
7 一 工 
1 二 
= 一 卫 ) 帮 歼 故 (5.94) 
7 一 工 
1 
se . 
元 ， (5.95) 





其 中 ， 再 次 使 用 SVD 的 定义 有 全 人 = 天 

以 上 分 析 指 明 当 我 们 通过 线性 变换 例 将 数据 z 投影 到 zx 时 ， 得 到 的 数据 表示 
的 协 方差 矩阵 是 对 角 的 ( 即 马 ? )， 立 刻 可 得 z 中 的 元 素 是 彼此 无 关 的 。 

PCA 这 种 将 数据 变换 为 元 素 之 间 彼 此 不 相关 表示 的 能 力 是 PCA 的 一 个 重要 性 
质 。 它 是 消除 数据 中 未 知 变化 因素 的 简单 表示 示例 。 在 PCA 中 ， 这 个 消除 是 通过 寻 
找 输入 空间 的 一 个 旋转 (由 葬 确 定 )， 使 得 方差 的 主 坐 标 和 z 相关 的 新 表示 空间 的 
基 对 齐 。 

虽然 相关 性 是 数据 元 素 间 依赖 关系 的 一 个 重要 范畴 ， 但 我 们 对 于 能 够 消除 更 复 
杂 形 式 的 特征 依赖 的 表示 学 习 也 很 感 兴趣 。 对 此 ， 我 们 需要 比 简单 线性 变换 更 强 的 
工具 . 


一 一 一 、O 〇 
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5.8.2 ”j/- 均 值 聚 类 





另外 一 个 简单 的 表示 学 习 算 法 是 太 均 值 聚 类 。 大 均值 聚 类 算法 将 训练 集 分 成 天 
个 靠近 彼此 的 不 同样 本 聚 类 。 因 此 我 们 可 以 认为 该 算法 提供 了 太 维 的 one-hot 编码 
向 量 疡 以 表示 输入 z。 当 z 属于 聚 类 ;时 ， 有 记 = 1 玉 的 其 他 项 为 零 。 

太 均 值 聚 类 提供 的 one-hot 编码 也 是 一 种 稀 琉 表示 ， 因 为 每 个 输入 的 表示 中 大 
部 分 元 素 为 零 。 之 后 ， 我 们 会 介绍 能 够 学 习 更 灵活 的 稀 玻 表示 的 一 些 其 他 算法 〈 表 
示 中 每 个 输入 z 不 只 一 个 非 零 项 )。one-hot 编码 是 稀 玻 表示 的 一 个 极端 示例 ， 丢 失 
了 很 多 分 布 式 表 示 的 优点 。one-hot 编码 仍然 有 一 些 统计 优点 〈 自然 地 传达 了 相同 聚 
类 中 的 样本 彼此 相似 的 观点 )， 也 具有 计算 上 的 优势 ， 因 为 整个 表示 可 以 用 一 个 单独 
的 整数 表示 。 

上 -均值 聚 类 初始 化 有 个 不 同 的 中 心 点 {AO) ,At}， 然 后 迭代 交换 两 个 不 同 
的 步 又 直到 收 公 。 步 又 一 ， 每 个 训练 样本 分 配 到 最 近 的 中 心 点 A4 所 代表 的 聚 类 i。 
步 又 二 ， 每 一 个 中 心 点 A 更 新 为 聚 类 ; 中 所 有 训练 样本 zt2) 的 均值 。 

关于 聚 类 的 一 个 问题 是 聚 类 问题 本 身 是 病态 的 。 这 是 说 没有 单一 的 标准 去 度量 
聚 类 的 数据 在 真实 世界 中 效果 如 何 。 我 们 可 以 度量 聚 类 的 性 质 ， 例 如 类 中 元 素 到 类 
中 心 点 的 欧 几 里 得 距离 的 均值 。 这 使 我 们 可 以 判断 从 聚 类 分 配 中 重建 训练 数据 的 效 
果 如 何 。 然 而 我 们 不 知道 聚 类 的 性 质 是 否 很 好 地 对 应 到 真实 世界 的 性 质 。 此 外 ， 可 
能 有 许多 不 同 的 聚 类 都 能 很 好 地 对 应 到 现实 世界 的 某 些 属性 。 我 们 可 能 希望 找到 和 
一 个 特征 相关 的 聚 类 ， 但 是 得 到 了 一 个 和 任务 无 关 的 ， 同 样 是 合理 的 不 同 聚 类 。 例 
如 ， 假 设 我 们 在 包含 红色 卡车 图 片 、 红 色 汽 车 图 片 、 灰 色 卡 车 图 片 和 灰色 汽车 图 片 
的 数据 集 上 运行 两 个 聚 类 算法 。 如 果 每 个 聚 类 算法 聚 两 类 ， 那 么 可 能 一 个 算法 将 汽 
车 和 卡车 各 聚 一 类 ， 另 一 个 根据 红色 和 灰色 各 聚 一 类 。 假 设 我 们 还 运行 了 第 三 个 聚 
类 算法 ,用 来 决定 类 别 的 数目 。 这 有 可 能 聚 成 了 四 类 ,红色 卡车 、 红 色 汽 车 、 灰 色 卡 
车 和 灰色 汽车 。 现 在 这 个 新 的 聚 类 至 少 抓 住 了 属性 的 信息 ， 但 是 丢失 了 相似 性 信息 。 
红色 汽车 和 灰色 汽车 在 不 同 的 类 中 ， 正 如 红色 汽车 和 灰色 卡车 也 在 不 同 的 类 中 。 该 
聚 类 算法 没有 告诉 我 们 灰色 汽车 和 红色 汽车 的 相似 度 比 灰色 卡车 和 红色 汽车 的 相似 
度 更 高 。 我 们 只 知道 它们 是 不 同 的 。 

这 些 问 题 说 明了 一 些 我 们 可 能 更 仿 好 于 分 布 式 表 示 〈 相 对 于 one-hot 表示 而 言 ) 
的 原因 。 分 布 式 表 示 可 以 对 每 个 车 辆 赋予 两 个 属性 一 一 一 个 表示 它 颜 色 ， 一 个 表示 
官 是 汽车 还 是 卡车 。 目 前 仍然 不 清楚 什么 是 最 优 的 分 布 式 表 示 《学习 算法 如 何 知道 
我 们 关心 的 两 个 属性 是 颜色 和 是 否 汽车 或 卡车 ， 而 不 是 制造 商 和 和 车 龄 ? )， 但 是 多 个 
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属性 减少 了 算法 去 猜 我 们 关心 哪 一 个 属性 的 负担 ， 人 允许 我 们 通过 比较 很 多 属性 而 非 
测试 一 个 单一 属性 来 细 粒 度 地 度量 相似 性 。 

















5.9 ”随机 梯度 下 降 


几乎 所 有 的 深度 学 习 算 法 都 用 到 了 一 个 非常 重要 的 算法 : 随机 梯度 下 降 
(Cstochastic gradient descent，SGD ) 。 随 机 梯度 下 降 是 第 4.3 节 介绍 的 梯度 下 降 算 
法 的 一 个 扩展 。 

机 需 学 习 中 反复 出 现 的 一 个 问题 是 好 的 谤 化 需要 大 的 训练 集 ， 但 大 的 训练 集 的 
计算 代价 也 更 大 。 

机 器 学 习 算法 中 的 代价 函数 通 带 可 以 分 解 成 每 个 样本 的 代价 函数 的 总 和 。 例 如 ， 
训练 数据 的 负 条 件 对 数 似 然 可 以 写成 


.JO) 全 Exy~pasta 二 人 2 O 二 2 入 ), 0 (5.96) 

















其 中 工 是 每 个 样本 的 损失 (zy 6) = 一 logp(y | 瑟 9)。 
对 于 这 些 相 加 的 代价 函数 ， 下 降 需 要 计算 
VeJ(6 上 2 vol 99). (5.97) 
这 个 运算 的 计算 代价 是 O(m)。 随 着 训练 集 规模 增长 为 数 十 亿 的 样本 ， 计 算 一 步 梯 度 
会 消耗 相当 长 的 时 间 。 
随机 梯度 下 降 的 核心 是 ， 梯 度 是 期 望 。 期 望 可 使 用 小 规模 的 样本 近似 估计 。 有 具 


体 而 言 ， 在 算法 的 每 一 步 ， 我 们 从 训练 集中 均匀 抽出 一 小 批量 (minibatch ) 样本 
防 = {zG), .zt )}。 小 批量 的 数目 mx/ ee 从 一 到 几 百 。 重 





要 的 是 ， 当 训练 集 大 小 浆 增长 时 ，mwx/ 是 固定 的 。 我 们 可 能 在 拟 合 几 十 亿 的 样 
本 时 ， 2 
梯度 的 估计 可 以 表示 成 
国人 \- GD) ，O 
9 二 Yo2Te ,809)， (5.98) 


使 用 来 自 小 批量 双 的 样本 。 然 后 ， 随 机 梯度 下 降 算 法 使 用 如 下 的 梯度 下 降 估 计 : 
0 已 0-eg， (5.99) 
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其 中 ，e 是 学 习 率 。 

梯度 下 降 往往 被 认为 很 慢 或 不 可 靠 。 以 前 ， 将 梯度 下 降 应 用 到 非 凸 优化 问题 被 
认为 很 鲁 三 或 没有 原则 。 现 在 ， 我 们 知道 梯度 下 降 用 于 本 书 第 二 部 分 中 的 训练 时 效 
果 不 错 。 优 化 算法 不 一 定 能 保证 在 合理 的 时 间 内 达到 一 个 局 部 最 小 值 ， 但 它 通 篆 能 
及 时 地 找到 代价 函数 一 个 很 小 的 值 ， 并 且 是 有 用 的 。 
随机 梯度 下 降 在 深度 学 习 之 外 有 很 多 重要 的 应 用 。 它 是 在 大 规模 数据 上 训练 大 
型 线性 模型 的 主要 方法 。 对 于 固定 大 小 的 模型 ， 每 一 步 随机 梯度 下 降 更 新 的 计算 量 
不 取决 于 训练 集 的 大 小 mm。 在 实践 中 ， 当 训练 集 大 小 增长 时 ， 我 们 通常 会 使 用 一 个 
更 大 的 模型 ， 但 这 并 非 是 必须 的 。 达 到 收敛 所 需 的 更 新 次 数 通常 会 随 训 练 集 规 模 增 
大 而 增加 。 然 而 ， 当 mm 趋向 于 无 穷 大 时 ， 该 模型 最 终 会 在 随机 梯度 下 降 抽样 完 训 练 
集 上 的 所 有 样本 之 前 收敛 到 可 能 的 最 优 测试 误差 。 继 续 增 加 mm 不 会 延长 达到 模型 可 
能 的 最 优 测试 误差 的 时 间 。 从 这 点 来 看 ， 我 们 可 以 认为 用 SGD 训练 模型 的 渐 近 代价 
是 关于 mm 的 函数 的 O(1) 级 别 。 

在 深度 学 习 兴 起 之 前 ， 学 习 非 线性 模型 的 主要 方法 是 结合 核 技 巧 的 线性 模型 。 
很 多 核 学 习 算 法 需要 构建 一 个 肥 xmm 的 矩阵 Gjj = Fl(z,zO))。 构 建 这 个 矩阵 的 计 
算 量 是 O(m2。 当 数据 集 是 几 十 亿 个 样本 时 ， 这 个 计算 量 是 不 能 接受 的 。 在 学 术 界 ， 
深度 学 习 从 2006 年 开始 受到 关注 的 原因 是 ,在 数 以 万 计 样 本 的 中 等 规模 数据 集 上 ， 
深度 学 习 在 新 样本 上 比 当 时 很 多 热门 算法 泛 化 得 更 好 。 不 久 后 ,深度 学 习 在 工业 界 
受到 了 更 多 的 关注 ， 因 为 其 提供 了 一 种 训练 大 数据 集 上 的 非 线性 模型 的 可 扩展 方式 。 
我 们 将 会 在 第 八 章 继续 探讨 随机 梯度 下 降 及 其 很 多 改进 方法 。 
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几乎 所 有 的 深度 学 习 算 法 都 可 以 被 描述 为 一 个 相当 简单 的 配方 : 特定 的 数据 集 、 
代价 琢 数 、 优 化 过 程 和 模型 。 
例如 ， 线 性 回归 算法 由 以 下 部 分 组 成 : 于 和 y 构成 的 数据 集 ， 代 价 函 数 




















J(u， D) 二 本 log pmodel(V | 2)， (5.100) 

模型 是 puaoaa(y | z]) = NO z 也 十 六 1)， 在 大 多 数 情况 下 ， 优 化 算法 可 以 定义 为 求 
解 代 价 函 数 梯度 为 零 的 正规 方程 。 

意识 到 我 们 可 以 替换 独立 于 其 他 组 件 的 大 多 数组 件 ， 因 此 我 们 能 得 到 很 多 不 同 
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的 算法 。 
通常 代价 函数 至 少 含有 一 项 使 学 习 过 程 进行 统计 佑 计 的 成 分 。 最 常见 的 代价 天 
数 是 负 对 数 似 然 ， 最 小 化 代价 函数 时 致 的 最 大 似 然 估计 。 


代价 函数 也 可 能 含有 附加 项 ， 如 正则 化 项 。 例 如 ， 我 们 可 以 将 权重 衰减 加 到 线 
生 回 归 的 代价 数 中 


到 














J(w 中 一 入 ul 一 也 cv-aasslogpmoael(y | 四 《5.101) 





该 优化 仍然 有 闭 解 。 

如 果 我 们 将 该 模型 变 成 非 线性 的 ， 那 么 大 多 数 代 价 函 数 不 再 能 通过 闭 解 优化 。 
这 就 要 求 我 们 选择 一 个 迭代 数值 优化 过 程 ， 如 梯度 下 降 等 。 

组 合 模型 、 代 价 和 优化 算法 来 构建 学 习 算法 的 配方 同时 适用 于 监督 学 习 和 无 监 
督学 习 。 线 性 回归 示例 说 明了 如 何 适 用 于 监督 学 习 的 。 无 监督 学 习 时 ， 我 们 需要 定 
义 一 个 只 包含 环 的 数据 集 、 一 个 合适 的 无 监督 代价 和 一 个 模型 。 例 如 ， 通 过 指定 如 
下 损失 函数 可 以 得 到 PCA 的 第 一 个 主 向 量 




















Ju) = 








n 2 
几 x~Paata |z 7 7(T; 0) | (5.102) 





模型 定义 为 重 构 末 数 r(z) = wzw， 并 且 由 有 范 数 为 1 的 限制 。 

在 某 些 情况 下 ,， 由 于 计算 原因 , 我们 不 能 实际 计算 代价 函数 。 在 这 种 情况 下 ， 只 
要 我 们 有 近似 其 梯度 的 方法 ,那么 我 们 仍然 可 以 使 用 迭代 数值 优化 近似 最 小 化 目标 。 

尽管 有 时 候 不 显然 , 但 大 多 数学 习 算法 都 用 到 了 上 述 配方 。 如 果 一 个 机 器 学 习 算 
法 看 上 去 特别 独特 或 是 手动 设计 的 ， 那 么 通常 需要 使 用 特殊 的 优化 方法 进行 求解 。 
有 些 模型 ， 如 决策 树 或 态 均 值 ， 需 要 特殊 的 优化 ， 因 为 它们 的 代价 函数 有 平坦 的 区 
域 ， 使 其 不 适合 通过 基于 梯度 的 优化 去 最 小 化 。 在 我 们 认识 到 大 部 分 机 需 学 习 算法 
可 以 使 用 上 述 配方 描述 之 后 ， 我 们 可 以 将 不 同 算法 视 为 出 于 相同 原因 解决 相关 问题 
的 一 类 方法 ， 而 不 是 一 长 串 各 个 不 同 的 算法 。 














5.11 促使 深度 学 习 发 展 的 挑战 


本 章 描述 的 简单 机 器 学 习 算 法 在 很 多 不 同 的 重要 问题 上 效果 都 良好 。 但 是 它们 
不 能 成 功 解决 人 工 智 能 中 的 核心 问题 ， 如 语音 识别 或 者 对 象 识别 。 
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深度 学 习 发 展 动机 的 一 部 分 原因 是 传统 学 习 算 法 在 这 类 人 工 智 能 问题 上 泛 化 能 
力 不 足 。 

本 节 介 绍 为 何 处 理 高 维 数据 时 在 新 样本 上 泛 化 特别 困难 ， 以 及 为 何在 传统 机 器 
学 习 中 实现 泛 化 的 机 制 不 适合 学 习 高 维 空间 中 复杂 的 函数 。 这 些 空间 经 常 涉及 巨大 
的 计算 代价 。 深 度 学 习 旨 在 克服 这 些 以 及 其 他 一 些 难题 。 

















5.11.1 维 数 灾难 


当 数 据 的 维 数 很 高 时 ， 很 多 机 器 学 习 问 题 变 得 相当 困难 。 这 种 现象 被 称 为 维 数 
灾难 (curse of dimnensionality )。 特 别 值得 注意 的 是 ， 一 组 变量 不 同 的 可 能 配置 数量 
会 随 着 变量 数目 的 增加 而 指数 级 增长 。 

维 数 灾 难 发 生 在 计算 机 科学 的 许多 地 方 ， 在 机 器 学 习 中 尤其 如 此 。 

由 维 数 灾难 带 来 的 一 个 挑战 是 统计 挑战 。 如 图 5.9 所 示 ， 统 计 挑 战 产 生 于 zx 的 
可 能 配置 数目 远大 于 训练 样本 的 数目 。 为 了 充分 理解 这 个 问题 ， 我 们 假设 输入 空间 
如 图 所 示 被 分 成 单元 格 。 空 间 是 低 维 时 ， 我 们 可 以 用 由 大 部 分 数据 占据 的 少量 单元 
格 去 撒 述 这 个 空间 。 泛 化 到 新 数据 点 时 ， 通 过 检测 和 新 输入 点 在 相同 单元 格 中 的 训 
练 样本 ， 我 们 可 以 判断 如 何 处 理 新 数据 点 。 例 如 ， 如 果 要 估计 某 点 z 处 的 概率 密度 ， 
我 们 可 以 返回 z 处 单位 体积 单元 格 内 训练 样本 的 数目 除 以 训练 样本 的 总 数 。 如 果 我 
们 和 硕 望 对 一 个 样本 进行 分 类 ， 我 们 可 以 返回 相同 单元 格 中 训练 样本 最 多 的 类 别 。 如 
果 我 们 是 做 回归 分 析 , 我 们 可 以 平均 该 单元 格 中 样本 对 应 的 目标 值 。 但 是 ,如 果 该 单 
元 格 中 没有 样本 ,该 怎么 办 呢 ? 因为 在 高 维 空间 中 参数 配置 数目 远大 于 样本 数目 , 大 
部 分 单元 格 中 没有 样本 。 我 们 如 何 能 在 这 些 新 配置 中 找到 一 些 有 意义 的 东西 呢 ? 许 
多 传统 机 需 学 习 算 法 只 是 简单 地 假设 在 一 个 新 点 的 输出 应 大 致 和 最 接近 的 训练 点 的 
输出 相同 。 


























5.11.2 局 部 不 变性 和 平滑 正则 化 


为 了 更 好 地 泛 化 ， 机 顺 学 习 算 法 需要 由 先 验 信 念 引 导 应 该 学 习 什 么 类 型 的 函数 。 
此 前 , 我 们 已 经 看 到 过 由 模型 参数 的 概率 分 布 形成 的 先 验 。 通 俗 地 讲 ， 我们 也 可 以 说 
先 验 信念 直接 影响 函 数 本 身 ， 而 仅仅 通过 它们 对 函数 的 影响 来 间接 改变 参数 。 此 外 ， 
我 们 还 能 通俗 地 说 ， 先 验 信念 还 间接 地 体现 在 选择 一 些 偏 好 某 类 函数 的 算法 ， 尽 管 
这 些 俩 好 并 没有 通过 我 们 对 不 同 肯 数 置信 程度 的 概率 分 布 表 现 出 来 《也 许 根本 没 法 
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图 5.9: 当 数据 的 相关 维度 增 大 时 (从 左 向 右 ), 我 们 感 兴趣 的 配置 数目 会 随 之 指数 级 增长 。( 左 ) 在 
这 个 一 维 的 例子 中 ， 我 们 用 一 个 变量 来 区 分 所 感 兴趣 的 10 个 区 域 。 当 每 个 区 域 都 有 足够 的 样本 数 
时 (每 个 区 域 对 应 图 中 的 一 个 单元 格 )， 学 习 算 法 能 够 轻易 地 泛 化 得 很 好 。 泛 化 的 一 个 直接 方法 是 
估计 目标 函数 在 每 个 区 域 的 值 ( 可 能 是 在 相 邻 区 域 之 间 搬 值 )。( 中 ) 在 二 维 情况 下 ， 对 每 个 变量 区 
分 10 个 不 同 的 值 更 加 困难 。 我 们 需要 追踪 10 x 10 = 100 个 区 域 ， 至 少 需要 很 多 样本 来 覆盖 所 有 
的 区 域 。( 右 ) 三 维 情况 下 ， 区 域 数 量 增加 到 了 103 = 1000， 至 少 需要 那么 多 的 样本 。 对 于 需要 区 
分 的 d 维 以 及 v 个 值 来 说 ， 我 们 需要 O(u?) 个 区 域 和 样本 。 这 就 是 维 数 灾难 的 一 个 示例 。 感 谢 
Nicolas Chapados 提供 的 图 片 。 



















































































表现 )。 

其 中 最 广泛 使 用 的 隐 式 “ 先 验 ” 是 平滑 先 验 (smoothness prior )， 或 局 部 不 变 
性 先 验 (local constancy prior )。 这 个 先 验 表 明 我 们 学 习 的 函数 不 应 在 小 区 域内 发 生 
很 大 的 变化 。 

许多 简单 算法 完全 依赖 于 此 先 验 达 到 良好 的 泛 化 ， 其 结果 是 不 能 推广 去 解决 人 
工 智能 级 别 任务 中 的 统计 挑战 。 本 书 中 ， 我 们 将 介绍 深度 学 习 如 何 引 入 额外 的 〈 显 
式 或 隐 式 的 ) 先 验 去 降低 复杂 任务 中 的 谤 化 误差 。 这 里 ， 我 们 解释 为 什么 仅 依靠 平 
滑 先 验 不 足以 应 对 这 类 任务 。 

有 许多 不 同 的 方法 来 显 式 或 隐 式 地 表示 学 习 数 应 该 具有 光 请 或 局 部 不 变 的 先 
验 。 所 有 这 些 不 同 的 方法 都 则 在 鼓励 学 习 过 程 能 够 学 习 出 数 产 ， 对 于 大 多 数 设置 
2 和 小 变动 es， 都 满足 条 件 





广 (z) 六 广 (z 十 6. (5.103) 


换言之 ， 如 果 我 们 知道 对 应 输入 z 的 答案 〈 例 如 ，z 是 个 有 标签 的 训练 样本 )， 那 么 
该 答案 对 于 z 的 邻 域 应 该 也 适用 。 如 果 在 有 些 邻 域 中 我 们 有 几 个 好 答案 ， 那 么 我 们 
可 以 组 合 它们 〈 通 过 某 种 形式 的 平均 或 搬 值 法 ) 以 产生 一 个 尽 可 能 和 大 多 数 输入 一 
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致 的 答案 。 
局 部 不 变 方法 的 一 个 极端 例子 是 上 最 近邻 系列 的 学 习 算 法 。 当 一 个 区 域 里 的 所 
有 点 z 在 训练 集中 的 及 个 最 近邻 是 一 样 的 ， 那 么 对 这 些 点 的 预测 也 是 一 样 的 。 当 


大 = 工时， 不 同 区 域 的 数目 不 会 比 训练 样本 还 多 。 

虽然 大 最 近邻 算法 复制 了 附近 训练 样本 的 输出 ， 大 部 分 核 机 器 也 是 在 和 附近 训 
练 样本 相关 的 训练 集 输出 上 插值 。 一 类 重要 的 核 柚 数 是 局 部 核 (local kernel )， 甚 核 
函数 Kuw 在 全 =， 时 很 大 ,， 当 尽 和 风 距离 拉 大 时 而 减 小 。 局 部 核 可 以 看 作 是 执 
行 模版 匹配 的 相似 函数 ， 用 于 度量 测试 样本 z 和 每 个 训练 样本 zt9 有 多 么 相似 。 近 
年 来 深度 学 习 的 很 多 推动 力 源 自 研究 局 部 模版 匹配 的 局 限 性 ， 以 及 深度 学 习 如 何 克 
服 这 些 局 限 性 (Bengio et 1.，2006a)。 

决策 树 也 有 平滑 学 习 的 局 限 性 ， 因 为 它 将 输入 空间 分 成 和 叶 贡 点 一 样 多 的 区 间 ， 
并 在 每 个 区 间 使 用 单独 的 参数 〈 或 者 有 些 决策 树 的 拓展 有 多 个 参数 )。 如 果 目 标 函 数 
需要 至 少 拥有 m” 个 叶 节 点 的 树 才能 精确 表示 ， 那 么 至 少 需要 m 个 训练 样本 去 拟 合 。 
需要 儿 倍 于 ”的 样本 去 达到 预测 输出 上 的 某 种 统计 置信 度 。 

总 的 来 说 ， 区 分 输入 空间 中 O(f) 个 区 间 ， 所 有 的 这 些 方法 需要 O(K) 个 样本 。 
通常 会 有 O(k) 个 参数 ，O(1) 参数 对 应 于 O(b) 区 间 之 一 。 最 近邻 算法 中 ， 每 个 训 
练 样本 至 多 用 于 定义 一 个 区 间 ， 如 图 5.10 所 示 。 




















O 〇 





图 5.10: 最 近邻 算法 如 何 划分 输入 空间 的 示例 。 每 个 区 域内 的 一 个 样本 〈 这 里 用 圆圈 表示 ) 定义 了 
区 域 边界 (这 里 用 线 表示 )。 每 个 样本 相关 的 y 值 定义 了 对 应 区 域内 所 有 数据 点 的 输出 。 由 最 近 
邻 定 义 并 且 匹 配 几 何 模式 的 区 域 被 称 为 Voronoi 图。 这 些 连续 区 域 的 数量 不 会 比 训练 样本 的 数量 
增加 得 更 快 。 尽 管 此 图 具体 说 明了 最 近邻 算法 的 效果 ， 其 他 的 单纯 依赖 局 部 光滑 先 验 的 机 器 学 习 
算法 也 表现 出 了 类 似 的 泛 化 能 力 : 每 个 训练 样本 仅仅 能 告诉 学 习 者 如 何在 其 周围 的 相 邻 区 域 泛 化 。 
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有 没有 什么 方法 能 表示 区 间 数 目 比 训练 样本 数目 还 多 的 复杂 函数 ” 显然 ， 只 是 
假设 机 数 的 平滑 性 不 能 做 到 这 点 。 例 如 , 想象 目标 郴 数 作用 在 西洋 跳棋 盘 上 。 柑 盘 包 
含 许多 变化 ， 但 只 有 一 个 简单 的 结构 。 想 象 一 下 ， 如 果 训 练 样本 数目 远 小 于 棋盘 上 
的 黑白 方块 数目 ， 那 么 会 发 生 什 么 。 基 于 局 部 泛 化 和 平滑 性 或 局 部 不 变性 先 验 ， 如 
果 新 点 和 某 个 训练 样本 位 于 相同 的 棋盘 方块 中 ,那么 我 们 能 够 保证 正确 地 预测 新 点 
的 颜色 。 但 如 果 新 点 所 在 的 方块 没有 训练 样本 ， 学 习 器 不 一 定 能 举一反三 。 如 果 仅 
依靠 这 个 先 验 ， 一 个 样本 只 能 告诉 我 们 它 所 在 的 方块 的 颜色 。 获 得 整个 棋盘 颜色 的 
唯一 方法 是 其 上 的 每 个 方块 至 少 要 有 一 个 样本 。 

只 要 在 要 学 习 的 真实 函数 的 峰值 和 谷 值 处 有 足够 多 的 样本 ， 那 么 平滑 性 假设 和 
相关 的 无 参数 学 习 算 法 的 效果 都 非常 好 。 当 要 学 习 的 函数 足够 平滑 ， 并 且 只 在 少数 
儿 维 变化 ， 这 样 做 一 般 没 问题 。 在 高 维 空间 中 ， 即 使 是 非常 平滑 的 函数 ， 也 会 在 不 
同 维度 上 有 不 同 的 变化 方式 。 如 果 函 数 在 不 同 的 区 间 中 表现 不 一 样 ， 那 么 就 非常 难 
用 一 组 训练 样本 去 刻画 函数 。 如 果 冰 数 是 复杂 的 〈 我 们 想 区 分 多 于 训练 样本 数目 的 
大 量 区 间 )， 有 和 希望 很 好 地 泛 化 人 么 ? 

这 些 问 题 ， 即 是 否 可 以 有 效 地 表示 复杂 的 函数 以 及 所 估计 的 函数 是 否 可 以 很 好 
地 泛 化 到 新 的 输入 ， 答 案 是 有 。 关 键 观 点 是 ， 只 要 我 们 通过 额外 假设 生成 数据 的 分 
布 来 建立 区 域 间 的 依赖 关系 , 那么 O(P) 个 样本 足以 描述 多 如 O(224) 的 大 量 区 间 。 通 
过 这 种 方式 ， 我 们 确实 能 做 到 非 局 部 的 泛 化 (Bengio and Monperrus, 2005; Bengio 
et ol， 2006b)。 为 了 利用 这 些 优势 ， 许 多 不 同 的 深度 学 习 算 法 都 提出 了 一 些 适 用 于 多 
种 AI 任务 的 隐 式 或 显 式 的 假设 。 

一 些 其 他 的 机 需 学 习 方法 往往 会 提出 更 强 的 ， 针 对 特定 问题 的 假设 。 例 如 ， 假 
设 目标 函数 是 周期 性 的 , 我 们 很 容易 解决 棋盘 问题 。 通 常 ， 神经 网 络 不 会 包含 这 些 很 
强 的 〈 针 对 特定 任务 的 ) 假设 ， 因 此 神经 网 络 可 以 泛 化 到 更 广泛 的 各 种 结构 中 。 人 
工 智能 任务 的 结构 非常 复杂 ， 很 难 限 制 到 简单 的 、 人 工 手动 指定 的 性 质 ， 如 周期 性 ， 
因此 我 们 和 希望 学 习 算 法 具有 更 通用 的 假设 。 深 度 学 习 的 核心 思想 是 假设 数据 由 因素 
或 特征 组 合 产生 ， 这 些 因素 或 特征 可 能 来 自 一 个 层次 结构 的 多 个 层级 。 许 多 其 他 类 
似 的 通用 假设 进一步 提高 了 深度 学 习 算 法 。 这 些 很 温和 的 假设 允许 了 样本 数目 和 可 
区 分 区 间 数 目 之 间 的 指数 增益 。 这 类 指数 增益 将 在 第 6.4.1 节 、 第 15.4 节 和 第 15.5 节 
中 更 详尽 地 介绍 。 深 度 的 分 布 式 表示 带 来 的 指数 增益 有 效 地 解决 了 维 数 灾难 带 来 的 
挑战 。 
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5.11.3 流 形 学 习 


流 形 是 一 个 机 天 学 习 中 很 多 想法 内 在 的 重要 概念 。 

流 形 〈manifold ) 指 连接 在 一 起 的 区 域 。 数 学 上 ， 它 是 指 一 组 点 ， 且 每 个 点 都 
有 其 邻 域 。 给 定 一 个 任意 的 点 ， 其 流 形 局 部 看 起 来 像 是 欧 几 里 得 空间 。 日 常生 活 中 ， 
我 们 将 地 球 视 为 二 维 平 面 ， 但 实际 上 它 是 三 维 空间 中 的 球状 流 形 。 

每 个 点 周围 邻 域 的 定义 暗示 着 存在 变换 能 够 从 一 个 位 置 移动 到 其 邻 域 位 置 。 例 
如 在 地 球 表面 这 个 流 形 中 ， 我 们 可 以 朝 东 南西 北 走 。 

尽管 术语 “ 流 形 ”有 正式 的 数学 定义 ， 但 是 机 器 学 习 倾 向 于 更 松散 地 定义 一 组 
点 ， 只 需要 考虑 少数 肯 人 在 高 维 空间 中 的 自由 度 或 维 数 就 能 很 好 地 近似 。 每 一 维 都 
对 应 着 局 部 的 变化 方向 。 如 图 5.11 所 示 ， 训 练 数据 位 于 二 维 空间 中 的 一 维 流 形 中 。 
在 机 融 学 习 中 ,我们 允许 流 形 的 维 数 从 一 个 点 到 另 一 个 点 有 所 变化 。 这 经 常 发 生 于 
流 形 和 自身 相交 的 情况 中 。 例 如 ， 数 字 “8” 形状 的 流 形 在 大 多 数位 置 只 有 一 维 ， 但 
在 中 心 的 相交 处 有 两 维 。 
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图 5.11: 从 一 个 二 维 空间 的 分 布 中 抽取 的 数据 样本 ， 这 些 样 本 实际 上 到 集 在 一 维 流 形 附近 ， 像 一 个 
缠绕 的 带子 。 实 线 代 表 学 习 器 应 该 推断 的 隐 式 流 形 。 


如 果 我 们 和 希望 机 器 学 习 算 法 学 习 整 个 及 ”上 有 趣 变化 的 函数 ， 那 么 很 多 机 器 学 
习 问 题 看 上 去 都 是 无 望 的 。 流 形 学 习 (manifold learning ) 算法 通过 一 个 假设 来 克服 
这 个 障碍 ,该 假设 认为 及 ”中 大 部 分 区 域 都 是 无 效 的 输入 , 有 意义 的 输入 只 分 布 在 包 
含 少量 数据 点 的 子 集 构成 的 一 组 流 形 中 ， 而 学 习 函 数 的 输出 中 ， 有 意义 的 变化 都 沿 
着 流 形 的 方向 或 仅 发 生 在 我 们 切换 到 另 一 流 形 时 。 流 形 学 习 最 初 用 于 连续 数值 和 无 
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监督 学 习 的 环境 ， 尽 管 这 个 概率 集中 的 想法 也 能 够 证 化 到 离散 数据 和 监督 学 习 的 设 
定 下 : 关键 假设 仍然 是 概率 质量 高 度 集中 。 





图 5.12: 随机 地 均匀 抽取 图 像 (根据 均匀 分 布 随机 地 选择 每 一 个 像素 ) 会 得 到 噪声 图 像 。 尽 管 在 人 
工 智能 应 用 中 以 这 种 方式 生成 一 个 脸 或 者 其 他 物体 的 图 像 是 非 零 概率 的 ， 但 是 实际 上 我 们 从 来 没 
有 观察 到 这 种 现象 。 这 也 意味 着 人 工 智 能 应 用 中 遇 到 的 图 像 在 所 有 图 像 空间 中 的 占 比 可 以 是 忽略 
不 计 的 。 











数据 位 于 低 维 流 形 的 假设 并 不 总 是 对 的 或 者 有 用 的 。 我 们 认为 在 人 工 智 能 的 一 
些 场景 中 ， 如 涉及 到 处 理 图 像 、 声 音 或 者 文本 时 ， 流 形 假 设 至 少 是 近似 对 的 。 这 个 
假设 的 支持 证 据 包 含 两 类 观察 结果 。 

第 一 个 支持 流 形 假设 (manifold hypothesis ) 的 观察 是 现实 生活 中 的 图 像 、 文 
本 、 声 音 的 概率 分 布 都 是 高 度 集中 的 。 均 匀 的 噪声 从 来 不 会 与 这 类 领域 的 结构 化 输 
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和 类似。 图 5.12 显示 均匀 采样 的 点 看 上 去 像 是 没有 信和 号 时 模拟 电视 上 的 静态 模式 。 
同样 ， 如 果 我 们 均匀 地 随机 抽取 字母 来 生成 文件 ， 能 有 多 大 的 概率 得 到 一 个 有 意义 
的 英语 文档 ?” 几乎 是 零 。 因 为 大 部 分 字母 长 序列 不 对 应 着 自然 语言 序列 : 自然 语言 
序列 的 分 布 只 占 了 字母 序列 的 总 空间 里 非常 小 的 一 部 分 。 

当然 ， 集 中 的 概率 分 布 不 足以 说 明 数 据 位 于 一 个 相当 小 的 流 形 中 。 我 们 还 必须 
确保 ， 我 们 遇 到 的 样本 和 其 他 样本 相互 连接 ， 每 个 样本 被 其 他 高 度 相 似 的 样本 包围 ， 
而 这 些 高 度 相似 的 样本 可 以 通过 变换 来 凯 历 该 流 形 得 到 。 文 持 流 形 假设 的 第 二 个 论 
点 是 ， 我 们 至 少 能 够 非 正式 地 想象 这 些 邻 域 和 变换 。 在 图 像 中 ,我 们 当然 会 认为 有 
很 多 可 能 的 变换 仍然 允许 我 们 描绘 出 图 片 空 间 的 流 形 : 我 们 可 以 逐 新 变 暗 或 变 亮 》 
泽 、 逐 步 移 动 或 旋转 图 中 对 象 、 逐 渐 改变 对 象 表面 的 颜色 等 等 。 在 大 多 数 应 用 中 很 
有 可 能 会 涉及 到 多 个 流 形 。 例 如 ， 人 脸 图 像 的 流 形 不 太 可 能 连接 到 猫 脸 图 像 的 流 形 。 

这 些 文 持 流 形 假设 的 思维 实验 传递 了 一 些 文 持 它 的 直观 理由 。 更 严格 的 实 
验 (Cayton, 2005; Narayanan and Mitter, 2010; Sch5lkopf et al/.，1998a; Roweis and 
Saul, 2000; Tenenbaum et al/., 2000; Brand, 2003a; Belkin and Niyogi, 2003b; Donoho 
and Grimes, 2003; Weinberger and Saul, 2004a) 在 人 工 智 能 中 备 受 关注 的 一 大 类 数 
据 集 上 文 持 了 这 个 假设 。 

当 数据 位 于 低 维 流 形 中 时 , 使 用 流 形 中 的 坐标 而 非 有" 中 的 坐标 表示 机 需 学 习 数 
据 更 为 自然 。 日 党 生活 中 ， 我 们 可 以 认为 道路 是 衣 入 在 三 维 空间 的 一 维 流 形 。 我 们 
用 一 维 道路 中 的 地 址 号 码 确定 地 址 ， 而 非 三 维 空间 中 的 坐标 。 提 取 这 些 流 形 中 的 坐 
标 是 非常 具有 挑战 性 的 ， 但 是 很 有 希望 改进 许多 机 器 学 习 算 法 。 这 个 一 般 性 原则 能 
够 用 在 很 多 情况 中 。 图 5.13 展示 了 包含 人 脸 的 数据 集 的 流 形 结构 。 在 本 书 的 最 后 ， 
我 们 会 介绍 一 些 学 习 这 样 的 流 形 结构 的 必 备 方法 。 在 图 20.6 中 ， 我 们 将 看 到 机 器 学 
习 算 法 如 何 成 功 完成 这 个 目标 。 

第 一 部 分 介绍 了 数学 和 机 需 学 习 中 的 基本 概念 ， 这 将 用 于 本 书 其 他 章节 中 。 至 
此 ， 我 们 已 经 做 好 了 研究 深度 学 习 的 准备 。 
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图 5.13: QMUL Multiview Face 数据 集中 的 训练 样本 (Gong et al., 2000) ， 其 中 的 物体 是 移动 
的 从 而 覆盖 对 应 两 个 旋转 角度 的 二 维 流 形 。 我 们 希望 学 习 算 法 能 够 发 现 并 且 理 出 这 些 流 形 坐 标 。 
图 20.6 提供 了 这 样 一 个 示例 。 
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本 书 这 一 部 分 总 结 现代 深度 学 习 用 于 解决 实际 应 用 的 现状 。 

深度 学 习 有 着 悠久 的 历史 和 许多 愿景 。 数 种 提出 的 方法 尚未 完全 结 出 果实 。 数 
个 雄心 勃勃 的 目标 尚未 实现 。 这 些 较 不 发 达 的 深度 学 习 分 支 将 出 现在 本 书 的 最 后 部 
分 。 

这 一 部 分 仅 关注 那些 基本 上 已 在 工业 中 大 量 使 用 的 技术 方法 。 

现代 深度 学 习 为 监督 学 习 提 供 了 一 个 强大 的 框 如 。 通 过 添加 更 多 层 以 及 癌 层 内 
添加 更 多 单元 ， 深 度 网 络 可 以 表示 复杂 性 不 断 增 加 的 函数 。 给 定 足够 大 的 模型 和 足 
够 大 的 标注 训练 数据 集 ， 我 们 可 以 通过 深度 学 习 将 输入 向 量 映射 到 输出 向 量 ， 完 成 
大 多 数 对 人 来 说 能 迅速 处 理 的 任务 。 其 他 任务 ， 比 如 不 能 被 描述 为 将 一 个 向 量 与 另 
一 个 相关 联 的 任务 ， 或 者 对 于 一 个 人 来 说 足够 困难 并 需要 时 间 思 考 和 反复 琢磨 才能 
完成 的 任务 ， 现 在 仍然 超出 了 这 度 学 习 的 能 力 范围 。 

本 书 这 一 部 分 描述 参数 化 函数 近似 技术 的 核心 ， 几 乎 所 有 现代 实际 应 用 的 这 度 
学 习 背 后 都 用 到 了 这 一 技术 。 首 移 ， 我 们 描述 用 于 表示 这 些 函 数 的 前 饥 深 度 网 络 模 
型 。 接 着 ， 我 们 提出 正则 化 和 优化 这 种 模型 的 高 级 技术 。 将 这 些 模 型 扩展 到 大 输入 
《如 高 分 辩 率 图 像 或 长 时 间 序 列 ) 需要 专门 化 。 我 们 将 会 介绍 扩展 到 大 图 像 的 卷 积 隐 
络 和 用 于 处 理 时 间 序 列 的 循环 神经 网 络 。 最 后 ， 我 们 提出 实用 方法 的 一 般 准 则 ， 有 
助 于 设计 、 构 建 和 配置 一 些 涉及 深度 学 习 的 应 用 ， 并 回顾 其 中 一 些 应 用 。 

这 些 章节 对 于 从 业者 来 说 是 最 重要 的 ， 也 就 是 现在 想 开始 实现 和 使 用 深度 学 
习 算法 解决 现实 问题 的 人 需要 阅读 这 些 章节 。 























深度 前 债 网 络 ( deep feedforward network ), 也 叫 作 前 馈 神 经 网 络 ( feedforward 
neural network ) 或 者 多 层 感知 机 ( multilayer perceptron, MLP )， 是 典型 的 深度 学 
习 模 型 。 前 馈 网 络 的 目标 是 近似 某 个 函数 产 。 例 如 ， 对 于 分 类 器 , y = 产 (z) 将 输入 
2 上 映 射 到 一 个 类 别 y。 前 锁 网 络 定 义 了 一 个 映射 y = jz 9)， 并 且 学 习 参 数 0 的 值 ， 
使 它 能 够 得 到 最 佳 的 函数 近似 。 

这 种 模型 被 称 为 前 向 〈feedforward ) 的 ， 是 因为 信息 流 过 z 的 函数 ， 流 经 用 于 
定义 太 的 中 间 计 算 过 程 ， 最 终 到 达 输 出 y。 在 模型 的 输出 和 模型 本 身 之 间 没 有 反馈 
(feedback ) 连接 。 当 前 人 馈 神 经 网 络 被 扩展 成 包含 反馈 连接 时 ， 它 们 被 称 为 循环 神经 
网 络 〈( recurrent neural network )， 在 第 十 章 介 绍 。 


前 馈 网 络 对 于 机 器 学 习 的 从 业者 是 极其 重要 的 。 它 们 是 许多 重要 商业 应 用 的 基 
础 。 例 如 ， 用 于 对 照片 中 的 对 象 进 行 识别 的 卷 积 神经 网 络 就 是 一 种 专门 的 前 馈 网 络 。 
前 馈 网 络 是 通 往 循环 网 络 之 路 的 概念 基石 ， 后 者 在 自然 语言 的 许多 应 用 中 发 挥 着 巨 
大 作用 。 

前 乌 神 经 网 络 被 称 作 网 络 (network ) 是 因为 它们 通常 用 许多 不 同 函 数 复合 
在 一 起 来 表示 。 该 模型 与 一 个 有 问 无 环 图 相关 联 ， 而 图 描述 函 数 是 如 何 复 
合 在 一 起 的 。 例 如 ， 我 们 有 三 个 函数 jD,j2) 和 jj) 连接 在 一 个 链 上 以 形成 
FUz) = JI(12(AG(o)))。 这 些 链 式 结构 是 神经 网 络 中 最 常用 的 结构 。 在 这 种 情况 
下 ，78) 被 称 为 网 络 的 第 一 层 (first layer )，j 丰 2) 被 称 为 第 二 层 (second layer )， 以 
此 类 推 。 链 的 全 长 称 为 模型 的 深度 ( depth )。 正 是 因为 这 个 术语 才 出 现 了 “深度 学 
习 ” 这 个 名 字 。 前 馈 网 络 的 最 后 一 层 被 称 为 输出 层 (output layer )。 在 神经 网 络 训练 
的 过 程 中 ,我 们 让 /ze) 去 匹配 产 (o) 的 值 。 训 练 数 据 为 我 们 提供 了 在 不 同 训练 点 上 
取 值 的 、 含 有 噪声 的 上 产 (z) 的 近似 实例 。 每 个 样本 z 都 伴随 着 一 个 标签 ys 户 (m)。 
训练 样本 直接 指明 了 输出 层 在 每 一 点 2 上 必须 做 什么 ; 它 必 须 产 生 一 个 接近 y 的 值 。 
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但 是 训练 数据 并 没有 直接 指明 其 他 层 应 该 怎么 做 。 学 习 算 法 必须 决定 如 何 使 用 这 些 
层 来 产生 想 要 的 输出 ， 但 是 训练 数据 并 没有 说 每 个 单独 的 层 应 该 做 什么 。 相 反 , 学 
习 算法 必须 决定 如 何 使 用 这 些 层 来 最 好 地 实现 产 的 近似 。 因 为 训练 数据 并 没有 给 出 
这 些 层 中 的 每 一 层 所 需 的 输出 ， 所 以 这 些 层 被 称 为 隐藏 层 (hidden layer )。 

最 后 ， 这 些 网 络 被 称 为 神经 网 络 是 因为 它们 或 多 或 少 地 受到 神经 科学 的 启 
发 。 网 络 中 的 每 个 隐藏 层 通常 都 是 向 量 值 的 。 这 些 隐藏 层 的 维 数 决定 了 模型 的 宽度 
(width )。 向 量 的 每 个 元 素 都 可 以 被 视 为 起 到 类 似 一 个 神经 元 的 作用 。 除 了 将 层 想 
象 成 向 量 到 向 量 的 单个 函数 ， 我 们 也 可 以 把 层 想象 成 由 许多 并 行 操作 的 单元 (unit ) 
组 成 ， 每 个 单元 表示 一 个 向 量 到 标量 的 函数 。 每 个 单元 在 某 种 意义 上 类 似 一 个 神经 
元 , 它 接收 的 输入 来 源 于 许多 其 他 的 单元 ,并 计算 它 自己 的 激活 值 。 使 用 多 层 向 量 值 
表示 的 想法 来 源 于 神经 科学 。 用 于 计算 这 些 表 示 的 函数 fo(z) 的 选择 ， 也 或 多 或 少 
地 受到 神经 科学 观测 的 指引 ， 这 些 观测 是 关于 生物 神经 元 计算 功能 的 。 然 而 ， 现 代 
的 神经 网 络 研究 受到 更 多 的 是 来 自 许多 数学 和 工程 学 科 的 指引 ， 并 且 神 经 网 络 的 目 
标 并 不 是 完美 地 给 大 脑 建 模 。 我 们 最 好 将 前 馈 神 经 网 络 想 成 是 为 了 实现 统计 泛 化 而 
设计 出 的 函数 近似 机 ， 它 偶尔 从 我 们 了 解 的 大 脑 中 提取 灵感 ， 但 并 不 是 大 脑 功能 的 
异型。 

一 种 理解 前 馈 网 络 的 方式 是 从 线性 模型 开始 ， 并 考虑 如 何 克 服 它 的 局 限 性 。 线 
性 模型 ， 例 如 逻辑 回归 和 线性 回归 ， 是 非常 吸引 人 的 ， 因 为 无 论 是 通过 闭 解 形式 还 
是 使 用 凸 优化 ， 它 们 都 能 高 效 旦 可 靠 地 拟 合 。 线 性 模型 也 有 明显 的 缺陷 ， 那 就 是 该 
模型 的 能 力 被 局 限 在 线性 函数 里 ， 所 以 它 无 法 理解 任何 两 个 输入 变量 间 的 相互 作用 。 

为 了 扩展 线性 异型 来 表示 z 的 非 线性 函数 ,我 们 可 以 不 把 线性 模型 用 于 z 本 身 ， 
而 是 用 在 一 个 变换 后 的 输入 %(z) 上 ， 这 里 是 一 个 非 线性 变换 。 同 样 ， 我 们 可 以 
使 用 第 5.7.2 节 中 描述 的 核 技巧 ， 来 得 到 一 个 基于 隐 含 地 使 用 少 映射 的 非 线 性 学 习 算 
法 。 我 们 可 以 认为 % 提供 了 一 组 描述 z 的 特征 ， 或 者 认为 它 提 供 了 z 的 一 个 新 的 表 
钞 。 






























































剩 下 的 问题 就 是 如 何 选择 映射 %。 





1. 其 中 一 种 选择 是 使 用 一 个 通用 的 %， 例 如 无 限 维 的 %， 它 隐 含 地 用 在 基 
于 RBF 核 的 核 机 融 上 。 如 果 4%(z) 具有 足够 高 的 维 数 ， 我 们 总 是 有 足够 的 能 力 
来 拟 合 训练 集 ， 但 是 对 于 测试 集 的 泛 化 往往 不 佳 。 非 常 通用 的 特征 映射 通常 只 
基于 局 部 光滑 的 原则 ， 并 且 没 有 将 足够 的 先 验 信息 进行 编码 来 解决 高 级 问题 。 


2. 另 一 种 选择 是 手动 地 设计 %。 在 深度 学 习 出 现 以 前 ， 这 一 直 是 主流 的 方法 。 这 
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种 方法 对 于 每 个 单独 的 任务 都 需要 人 们 数 十 年 的 努力 ， 从 业者 各 自 擅长 特定 的 
领域 ( 如 语音 识别 或 计算 机 视觉 )， 并 且 不 同 领域 之 间 很 难 迁 移 (transfer)。 











CD 


. 深度 学 习 的 策略 是 去 学 习 %。 在 这 种 方法 中 ， 我 们 有 一 个 模型 y = 帮 zi bu) = 
4(z;0) we。 我 们 现在 有 两 种 参数 : 用 于 从 一 大 类 师 数 中 学 习 g 的 参数 8， 以 及 
用 于 将 %(z) 映射 到 所 需 的 输出 的 参数 w。 这 是 深度 前 馈 网 络 的 一 个 例子 ， 其 
中 4 定义 了 一 个 隐藏 层 。 这 是 三 种 方法 中 唯一 一 种 放弃 了 训练 问题 的 凸 性 的 ， 
但 是 利 大 于 弊 。 在 这 种 方法 中 ,我 们 将 表示 参数 化 为 wmz 9)， 并 且 使 用 优化 算 
法 来 寻找 2， 使 它 能 够 得 到 一 个 好 的 表示 。 如 果 我 们 想 要 的 话 ， 这 种 方法 也 可 
以 通过 使 它 变 得 高 度 通用 以 获得 第 一 种 方法 的 优点 一 一 我 们 只 需 使 用 一 个 非常 
广泛 的 函数 族 %(z 9)。 这 种 方法 也 可 以 获得 第 二 种 方法 的 优点 。 人 类 专家 可 以 
将 他 们 的 知识 编码 进 网 络 来 帮助 泛 化 ， 他 们 只 需要 设计 那些 他 们 期 望 能 够 表现 
优异 的 函数 族 %(z; 9) 即 可 。 这 种 方法 的 优点 是 人 类 设计 者 只 需要 寻找 正确 的 
函数 族 即 可 ， 而 不 需要 去 寻找 精确 的 函数 。 




















这 种 通过 学 习 特 征 来 改善 模型 的 一 般 化 原则 不 仅仅 适用 于 本 章 描 述 的 前 铬 神经 
网 络 。 它 是 深度 学 习 中 反复 出 现 的 主题 ， 适 用 于 全 书 描述 的 所 有 种 类 的 模型 。 前 馈 
神经 网 络 是 这 个 原则 的 应 用 ， 它 学 习 从 严 到 y 的 确定 性 映射 并 且 没 有 反馈 连接 。 后 
面 出 现 的 其 他 模型 会 把 这 些 原 则 应 用 到 学 习 随 机 映射 、 学 习 带 有 反馈 的 画 数 以 及 学 
习 单 个 向 量 的 概率 分 布 。 

本 章 我 们 先 从 前 馈 网 络 的 一 个 简单 例子 说 起 。 接 着 ， 我 们 讨论 部 署 一 个 前 馈 网 
络 所 需 的 每 个 设计 决策 。 首先 , 训练 一 个 前 馈 网 络 至 少 需要 做 和 线性 模型 同样 多 的 设 
计 决 策 : 选择 一 个 优化 模型 、 代 价 函 数 以 及 输出 单元 的 形式 。 我 们 先 回顾 这 些 基于 梯 
度 学 习 的 基本 知识 , 然后 去 面 对 那 些 只 出 现在 前 馈 网 络 中 的 设计 决策 。 前 馈 网 络 已 经 
引入 了 隐藏 层 的 概念 ， 这 需要 我 们 去 选择 用 于 计算 隐藏 层 值 的 激活 函数 (activation 
function )。 我 们 还 必须 设计 网 络 的 结构 ， 包 括 网 络 应 该 包含 多 少 展 、 这 些 层 应 该 如 
何 连 接 ， 以 及 每 一 层 包 含 多 少 单元 。 在 深度 神经 网 络 的 学 习 中 需要 计算 复杂 男 数 的 
梯度 。 我 们 给 出 反 向 传播 (back propagation ) 算法 和 它 的 现代 推广 ， 它 们 可 以 用 来 
高 效 地 计算 这 些 梯 度 。 最 后 ， 我 们 以 某 些 历史 观点 来 结束 这 一 章 。 
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6.1 实例: 学 习 XOR. 


为 了 使 前 馈 网 络 的 想法 更 加 具体 ， 我 们 首先 从 一 个 可 以 完整 工作 的 前 馈 网 络 说 
起 。 这 个 例子 解决 一 个 非常 简单 的 任务 : 学 习 XOR 函数 。 

XOR 函数 (“ 蜡 或 ”逻辑 ) 是 两 个 二 进 制 值 zx: 和 zs 的 运算 。 当 这 些 二 进 制 值 
中 恰好 有 一 个 为 1 时 ，XOR 杖 数 返 回 值 为 1。 其 余 情 况 下 返回 值 为 0。XOR 函数 提 
供 了 我 们 想 要 学 习 的 目标 函数 y = 产 (m。 我 们 的 模型 给 出 了 一 个 函数 y = jz; 0) 
并 且 我 们 的 学 习 算法 会 不 断 调 整 参 数 0 来 使 得 / 尽 可 能 接近 产 。 

在 这 个 简单 的 例子 中 ， 我 们 不 会 关心 统计 泛 化 。 我 们 希望 网 络 在 这 四 个 点 
飞 = {[0,0] ,01 007,II 上 表现 正确 。 我 们 会 用 全 部 这 四 个 点 来 训练 我 们 
的 网 络 ， 唯 一 的 挑战 是 拟 合 训练 集 。 

我 们 可 以 把 这 个 问题 当 作 是 回归 问题 ， 并 使 用 均 方 误 差 损 失 冰 数 。 我 们 选择 这 
个 损失 天 数 是 为 了 尽 可 能 简化 本 例 中 用 到 的 数学 。 在 应 用 领域 ， 对 于 二 进 制 数据 建 
模 时 ，MSE 通 党 并 不 是 一 个 合适 的 损失 函数 。 更 加 合适 的 方法 将 在 第 6.2.2.2 节 中 讨 


论 。 
































评估 整个 训练 集 上 表现 的 MSE 损失 函数 为 
工 
7T(9) = 了 > ( 广 (一 aig)) (6.1) 
ZE 尺 
我 们 现在 必须 要 选择 我 们 模型 /lw 6) 的 形式 。 假 设 我 们 选择 一 个 线性 模型 ，6 
包含 w 和 8， 那么 我 们 的 模型 被 定义 成 


jz tb) 三 ZU 十 (6.2) 


我 们 可 以 使 用 正规 方程 关于 ww 和 最 小 化 J(9)， 来 得 到 一 个 闭 式 解 。 

解 正规 方程 以 后 , 我 们 得 到 ww = 0 以 及 = 3。 线性 模型 仅仅 是 在 任意 一 点 都 输 
出 0.5。 为 什么 会 发 生 这 种 事 ” 图 6.1 演示 了 线性 模型 为 什么 不 能 用 来 表示 XOR 天 
数 。 解 决 这 个 问题 的 其 中 一 种 方法 是 使 用 一 个 模型 来 学 习 一 个 不 同 的 特征 空间 ， 在 
这 个 空间 上 线性 模型 能 够 表示 这 个 解 。 

具体 来 说 , 我 们 这 里 引入 一 个 非常 简单 的 前 馈 神 经 网 络 , 它 有 一 层 隐 藏 层 并 且 隐 
藏 层 中 包含 两 个 单元 。 见 图 6.2 中 对 该 模型 的 解释 。 这 个 前 饥 网 络 有 一 个 通过 函数 
jO(c; 厂 , ce) 计算 得 到 的 隐藏 单元 的 向 量 六 这 些 隐 藏 单元 的 值 随后 被 用 作 第 二 层 的 
输入 。 第 二 层 就 是 这 个 网 络 的 输出 层 。 输 出 层 仍然 只 是 一 个 线性 回归 模型 ， 只 不 过 
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图 6.1: 通过 学 习 一 个 表示 来 解决 XOR. 问题。 图 上 的 粗 体 数字 标明 了 学 得 的 函数 必须 在 每 个 点 输 
出 的 值 。( 左 ) 直接 应 用 于 原始 输入 的 线性 模型 不 能 实现 XOR 函数 。 当 zi = 0 时 ， 模 型 的 输出 必 
须 随 着 zy 的 增 大 而 增 大 。 当 zi = 1 时 ,模型 的 输出 必须 随 着 za 的 增 大 而 减 小 。 线 性 模型 必须 对 
Z2 使 用 固定 的 系数 wz。 因此 ， 线 性 模型 不 能 使 用 zi 的 值 来 改变 za 的 系数 ， 从 而 不 能 解决 这 个 
问题 。( 右 ) 在 由 神经 网 络 提取 的 特征 表示 的 变换 空间 中 ， 线 性 模型 现在 可 以 解决 这 个 问题 了 。 在 
我 们 的 示例 解决 方案 中 ， 输 出 必须 为 1 的 两 个 点 折 肢 到 了 特征 空间 中 的 单个 点 。 换 名 话说 ， 非 线 






















































































性 特征 将 = 10 和 z= [0, 熙 ”都 映射 到 了 特征 空间 中 的 单个 点 产 = [0] 。 线 性 模型 现在 可 


以 将 函数 描述 为 六 增 大 和 j 减 小 。 在 该 示例 中 ,学 习 特 征 空间 的 动机 仅仅 是 使 得 模型 的 能 力 更 





























大 ， 使 得 它 可 以 拟 合 训练 集 。 在 更 现实 的 应 用 中 ,学 习 的 表示 也 可 以 帮助 模型 泛 化 。 








现在 它 作 用 于 疡 而 不 是 z。 网 络 现在 包含 链接 在 一 起 的 两 个 函数 : 疡 = /0)(z 本 ,ec) 


和 Y= J2( 访 岂 妨 ， 完 整 的 模型 是 /ez 且 )c 岂 轨 = jD(AO(m))。 





F 应 该 是 哪 种 函数 ” 线性 模型 到 目前 为 止 都 表现 不 错 ， 让 /0 也 是 线性 的 似 
乎 很 有 诱惑 力 。 可 惜 的 是 ， 如 果 jj 是 线性 的 ， 那 么 前 馈 网 络 作 为 一 个 整体 对 于 输 
人 仍然 是 线性 的 。 暂 时 忽略 截 距 项 , 假设 FD)(z) = 全 "xz 并 且 /0)( 由 = ww， 那 侵 























jz) = w 环 z。 我 们 可 以 将 这 个 函数 重新 表示 成 fz) = zTeo 其 中 wy = Wuw。 
显然 , 我 们 必须 用 非 线性 函数 来 描述 这 些 特征 。 大 多 数 神经 网 络 通过 仿 射 变换 之 
后 紧 跟 着 一 个 被 称 为 激活 函数 的 固定 非 线性 函数 来 实现 这 个 目标 ， 其 中 仿 射 变换 由 














学 得 的 参数 控制 。 我 们 这 里 使 用 这 种 策略 ， 定 义 天 = 9( 丈 -zz+ co， 其 中 本 是 线性 











变换 的 权重 和 矩阵 ，e 是 俩 置 。 此 前 ， 为 了 描述 线性 回归 模型 ， 我 们 使 用 权重 向 量 和 一 
个 标量 的 俩 置 参数 来 描述 从 输入 向 量 到 输出 标量 的 仿 射 变换 。 现 在 ， 因 为 我 们 描述 
的 是 向 量 z 到 向 量 声 的 仿 射 变 换 ， 所 以 我 们 需要 一 整个 向 量 的 偏 置 参数 。 激 活 函 数 
9 通常 选择 对 每 个 元 素 分 别 起 作用 的 函数 ， 有 访 = 9(z 有 研 :十 ci)。 在 现代 神经 网 络 
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图 6.2: 使 用 两 种 不 同样 式 绘制 的 前 馈 网 络 的 示例 。 具 体 来 说 ， 这 是 我 们 用 来 解决 XOR 问题 的 前 
人 馈 网 络 。 它 有 单个 隐藏 层 , 包含 两 个 单元 。( 左 ) 在 这 种 样式 中 , 我 们 将 每 个 单元 绘制 为 图 中 的 一 个 
节点 。 这 种 风格 是 清楚 而 明确 的 ， 但 对 于 比 这 个 例子 更 大 的 网 络 ， 它 可 能 会 消耗 太 多 的 空间 。( 右 / 
在 这 种 样式 中 , 我 们 将 表示 每 一 层 激活 的 整个 向 量 绘制 为 图 中 的 一 个 节点 。 这 种 样式 更 加 紧凑 。 有 
时 ,我 们 对 图 中 的 边 使 用 参数 名 进行 注释 ， 这 些 参 数 是 用 来 描述 两 层 之 间 的 关系 的 。 这 里 ， 我 们 用 
矩阵 本 描述 从 z 到 瑚 的 映射 ， 用 向 量 凤 描述 从 万 到 y 的 映射 。 当 标记 这 种 图 时 ， 我 们 通常 省 
略 与 每 个 层 相关 联 的 截 距 参 数 。 












































































































































中 ， 默 认 的 推荐 是 使 用 由 激活 函数 9(z) = max{0, >} 定义 的 整流 线性 单元 (rectified 
linear unit ) 或 者 称 为 ReLU (Jarrett et al.,，2009b; Nair and Hinton, 2010a; Glorot 
et ul, 2011a)， 如 网 6.3 所 示 。 


我 们 现在 可 以 指明 我 们 的 整个 网 络 是 


jc; ec) = maxf0, 全 +ecl 十 1. (6.3) 


我 们 现在 可 以 给 出 XOR 问题 的 一 个 解 。 今 


1 1 工 
w- 于 辣 
0 


| 
孔 一 图 (6.6) 
以 及 D 一 0。 


我 们 现在 可 以 了 解 这 个 模型 如 何 处 理 一 批 输入 。 令 瑟 表 示 设 计 和 矩阵 ， 它 包含 二 
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图 6.3: 整流 线性 激活 函数 。 该 激活 函数 是 被 推荐 用 于 大 多 数 前 馈 神 经 网 络 的 默认 激活 函数 。 将 此 
函数 用 于 线性 变换 的 输出 将 产生 非 线性 变换 。 然 而 ， 本 数 仍然 非常 接近 线性 ， 在 这 种 意义 上 它 是 
具有 两 个 线性 部 分 的 分 段 线性 函数 。 由 于 整流 线性 单元 几乎 是 线性 的 ， 因 此 它们 保留 了 许多 使 得 
线性 模型 易于 使 用 基于 梯度 的 方法 进行 优化 的 属性 。 它 们 还 保留 了 许多 使 得 线性 模型 能 够 泛 化 良 
好 的 属性 。 计 算 机 科学 的 一 个 通用 原则 是 ， 我 们 可 以 从 最 小 的 组 件 构建 复杂 的 系统 。 就 像 图 灵机 
的 内 存 只 需要 能 够 存储 0 或 1 的 状态 ， 我 们 可 以 从 整流 线性 函数 构建 一 个 万 能 函数 近似 需 。 











































































































进 制 输 入 空间 中 全 部 的 四 个 点 ， 每 个 样本 占 一 行 ， 那 么 矩阵 表示 为 : 


0 工 
x=|; |. (6.7) 
响 
神经 网 络 的 第 一 步 是 将 输入 矩阵 乘 以 第 一 层 的 权重 和 矩阵 : 
上 | 
1 工 
| (6.8) 
2 -2 





然后 ， 我 们 加 上 偶 置 向 量 c， 得 到 
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在 这 个 空间 中 ， 所 有 的 样本 都 处 在 一 条 斜率 为 1 的 直线 上 。 当 我 们 治 着 这 条 直线 移 
动 时 ， 输 出 需要 从 0 升 到 1， 然 后 再 降 回 0。 线 性 模型 不 能 实现 这 样 一 种 函数 。 为 了 
用 疡 对 每 个 样本 求 值 ， 我 们 使 用 整流 线性 变换 : 


| 
1 0 
5 (6.10) 
2 1 


这 个 变换 改变 了 样本 间 的 关系 。 它 们 不 再 处 于 同一 条 直线 上 了 。 如 图 6.1 所 示 ， 
它们 现在 处 在 一 个 可 以 用 线性 模型 解决 的 空间 上 。 
我 们 最 后 乘 以 一 个 权重 向 量 
(6.11) 


出 
| 

神经 网 络 对 这 一 批 次 中 的 每 个 样本 都 给 出 了 正确 的 结 

在 这 个 例子 中 ， 我 们 简单 地 指定 了 解决 方案 ， 然 后 说 明 它 得 到 的 误差 为 零 。 在 
实际 情况 中 ， 可 能 会 有 数 十 亿 的 模型 参数 以 及 数 十 亿 的 训练 样本 ， 所 以 不 能 像 我 们 
这 里 做 的 那样 进行 简单 地 猜 解 。 与 之 相对 的 ， 基 于 梯度 的 优化 算法 可 以 找到 一 些 参 
数 使 得 产生 的 误差 非常 小 。 我 们 这 里 给 出 的 XOR 问题 的 解 处 在 损失 六 数 的 全 局 最 
小 点 ， 所 以 梯度 下 降 算 法 可 以 收敛 到 这 一 点 。 梯 度 下 降 算 法 还 可 以 找到 XOR 问题 一 
些 其 他 的 等 价 解 。 梯 度 下 降 算法 的 收敛 点 取决 于 参数 的 初始 值 。 在 实践 中 ， 梯 度 下 
降 通 常 不 会 找到 像 我 们 这 里 给 出 的 那 种 干净 的 、 容 易 理 解 的 、 整 数值 的 解 。 

















6.2 ”基于 梯度 的 学 习 


设计 和 训练 神经 网 络 与 使 用 梯度 下 降 训 练 其 他 任何 机 器 学 习 模 型 并 没有 太 大 不 
同 。 在 第 5.10 节 中 ， 我 们 描述 了 如 何 通过 指定 一 个 优化 过 程 、 代 价 函 数 和 一 个 模型 
族 来 构建 一 个 机 器 学 习 算 法 。 

我 们 到 目前 为 止 看 到 的 线性 模型 和 神经 网 络 的 最 大 区 别 ， 在 于 神经 网 络 的 非 线 
生 导 致 大 多 数 我 们 感 兴趣 的 代价 函数 都 变 得 非 凸 。 这 意味 着 神经 网 络 的 训练 通常 使 
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用 选 代 的 、 基 于 梯度 的 优化 ,仅仅 使 得 代价 函数 达到 一 个 非常 小 的 值 ， 而 不 是 像 用 于 
训练 线性 回归 模型 的 线性 方程 求解 器 ， 或 者 用 于 训练 尿 辑 回归 或 SVM 的 凸 优化 算 
法 那样 保证 全 局 收敛。 凸 优化 从 任何 一 种 初始 参数 出 发 都 会 收敛 ( 理论 上 如 此 一 
在 实践 中 也 很 鲁 棒 但 可 能 会 遇 到 数值 问题 )。 用 于 非 凸 损失 函数 的 随机 梯度 下 降 没有 
这 种 收敛 性 保证 ， 并 且 对 参数 的 初始 值 很 敏感 。 对 于 前 倘 神 经 网 络 ， 将 所 有 的 权重 
值 初始 化 为 小 随机 数 是 很 重要 的 。 偏 置 可 以 初始 化 为 零 或 者 小 的 正 值 。 这 种 用 于 训 
练 前 馈 神经 网 络 以 及 几乎 所 有 深度 模型 的 迭代 的 基于 梯度 的 优化 算法 会 在 第 八 章 详 
细 介 绍 ， 参 数 初始 化 会 在 第 8.4 节 中 具体 说 明 。 就 目前 而 言 ， 只 需要 懂得 ， 训 练 算法 
几乎 总 是 基于 使 用 梯度 来 使 得 代价 函数 下 降 的 各 种 方法 即 可 。 一 些 特别 的 算法 是 对 
梯度 下 降 思 想 的 改进 和 提纯 (在 第 4.3 节 中 介绍 ) 还 有 一 些 更 特别 的 ， 大 多 数 是 对 随 
机 梯度 下 降 算法 的 改进 (在 第 5.9 节 中 介绍 ) 

我 们 当然 也 可 以 用 梯度 下 降 来 训练 诸如 线性 回归 和 支持 向 量 机 之 类 的 模型 ， 并 
且 事实 上 当 训 练 集 相当 大 时 这 是 很 常用 的 。 从 这 点 来 看 ， 训 练 神经 网 络 和 训练 其 他 
任何 模型 并 没有 太 大 区 别 。 计 算 梯度 对 于 神经 网 络 会 略微 复杂 一 些 ， 但 仍然 可 以 很 
高 效 而 精确 地 实现 。 第 6.5 节 将 会 介绍 如 何 用 反 向 传播 算法 以 及 它 的 现代 扩展 算法 来 
求 得 梯度 。 

和 其 他 的 机 器 学 习 模型 一 样 ， 为 了 使 用 基于 梯度 的 学 习 方 法 我 们 必须 选择 一 个 
代价 函数 ， 并 且 我 们 必须 选择 如 何 表示 模型 的 输出 。 现 在 ， 我 们 重 温 这 些 设计 上 的 
考虑 ， 并 且 特 别 强调 神经 网 络 的 情景 
























































6.2.1 代价 函数 


深度 神经 网 络 设计 中 的 一 个 重要 方面 是 代价 冰 数 的 选择 。 幸 运 的 是 ， 神 经 网 络 
的 代价 函数 或 多 或 少 是 和 其 他 的 参数 模型 例如 线性 模型 的 代价 函数 相同 的 。 

在 大 多 数 情况 下 ， 我 们 的 参数 模型 定义 了 一 个 分 布 p(y | 9) 并 且 我 们 简单 地 
使 用 最 大 似 然 原理 。 这 意味 着 我 们 使 用 训练 数据 和 模型 预测 间 的 交叉 粒 作 为 代价 表 
数 。 

有 时 ， 我 们 使 用 一 个 更 简单 的 方法 ， 不 是 预测 y 的 完整 概率 分 布 ， 而 是 仅仅 预 
测 在 给 定 z 的 条 件 下 y 的 某 种 统计 量 。 某 些 专门 的 损失 冰 数 允许 我 们 来 训练 这 些 佑 
计量 的 预测 器 。 

用 于 训练 神经 网 络 的 完整 的 代价 函数 ， 通 常 在 我 们 这 里 描述 的 基本 代价 表 数 的 
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基础 上 结合 一 个 正则 项 。 我 们 已 经 在 第 5.2.2 节 中 看 到 正则 化 应 用 到 线性 模型 中 的 一 
些 简单 的 例子 。 用 于 线性 模型 的 权重 衰减 方法 也 直接 适用 于 深度 神经 网 络 ， 而 且 是 
最 流行 的 正则 化 策略 之 一 。 用 于 神经 网 络 的 更 高 级 的 正则 化 策略 将 在 第 七 章 中 讨论 。 














6.2.1.1 ”使 用 最 大 似 然 学 习 条 件 分 布 


大 多 数 现 代 的 神经 网 络 使 用 最 大 似 然 来 训练 。 这 意味 着 代价 函数 就 是 负 的 对 数 
似 然 ， 它 与 训练 数据 和 模型 分 布 间 的 交叉 简 等 价 。 这 个 代价 函数 表示 为 











J(9) = 一 Eeey~pPaata log pmoadel(y | z). (6.12) 








代价 函数 的 具体 形式 随 着 模型 而 改变 ， 取 决 于 log pmoael 的 具体 形式 。 上 述 方程 
的 展开 形式 通常 会 有 一 些 项 不 依赖 于 模型 的 参数 ， 我 们 可 以 侈 去 。 例 如 ， 正 如 我 们 
在 第 5.1.1 节 中 看 到 的 ， 如 果 pmoaa(y | z) = NI Ac 6), 厂 ， 那 么 我 们 驶 重 新 得 到 
了 均 方 误差 代价 ， 














二 
J(g) = 5 了 sy~pases|ly 一 josg)| 上 十 const， 《6.13) 


至 少 系数 ; 和 常数 项 不 依赖 于 9。 售 弃 的 常数 是 基于 高 斯 分 布 的 方差 ， 在 这 种 情况 
下 我 们 选择 不 把 它 参数 化 。 之 前 ， 我 们 看 到 了 对 输出 分 布 的 最 大 似 然 估 计 和 对 线性 
模型 均 方 误差 的 最 小 化 之 间 的 等 价 性 ， 但 事实 上 ， 这 种 等 价 性 并 不 要 求 fxz; 9) 用 于 
预测 高 斯 分 布 的 均值 。 

使 用 最 大 似 然 来 导出 代价 函数 的 方法 的 一 个 优势 是 ， 它 减轻 了 为 每 个 模型 设计 
代价 函数 的 负担 。 明 确 一 个 模型 p(y | 四 则 自动 地 确定 了 一 个 代价 冰 数 logp(y| 四 。 


贯穿 神经 网 络 设 计 的 一 个 反复 出 现 的 主题 是 代价 函数 的 梯度 必须 足够 的 大 和 具 
有 足够 的 预测 性 ， 来 为 学 习 算 法 提供 一 个 好 的 指引 。 饱 和 变 得 非常 平 ) 的 函数 破 
坏 了 这 一 目标 ， 因 为 它们 把 梯度 变 得 非常 小 。 这 在 很 多 情况 下 都 会 发 生 ， 因 为 用 于 
产生 隐藏 单元 或 者 输出 单元 的 输出 的 激活 函数 会 饱和 。 负 的 对 数 似 然 帮 助 我 们 在 很 
多 模型 中 避免 这 个 问题 。 很 多 输出 单元 都 会 包含 一 个 指数 冰 数 ， 这 在 它 的 变量 取 绝 
对 值 非常 大 的 负 值 时 会 造成 人 和 。 负 对 数 似 然 代 价 琐 数 中 的 对 数 函 数 消除 了 某 些 输 
出 单元 中 的 指数 效果 。 我 们 将 会 在 第 6.2.2 节 中 讨论 代价 函数 和 输出 单元 的 选择 间 的 
相互 作用 。 


用 于 过 更 晤 大 侯 估 伯 相 的 交 驻 俐 作价 岳 作 有 一 个 不 同 寻常 的 特性 ， 那 就 是 当 它 
被 应 用 于 实践 中 经 常 遇 到 的 模型 时 ， 它 通常 没有 最 小 值 。 对 于 离散 型 输出 变量 ， 大 
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多 数 模型 以 一 种 特殊 的 形式 来 参数 化 ， 即 它们 不 能 表示 概率 零 和 一 ， 但 是 可 以 无 限 
接近 。 逮 辑 回归 是 其 中 一 个 例子 。 对 于 实 值 的 输出 变量 ， 如 果 模 型 可 以 控制 输出 分 
布 的 密度 〈 例如 ， 通 过 学 习 高 斯 输出 分 布 的 方差 参数 )， 那 么 它 可 能 对 正确 的 训练 集 
输出 赋予 极其 高 的 密度 ， 这 将 导致 交叉 灶 趋 向 负 无 穷 。 第 七 章 中 描述 的 正则 化 技术 
提供 了 一 些 不 同 的 方法 来 修正 学 习 问 题 ， 使 得 模型 不 会 通过 这 种 方式 来 获得 无 限制 
的 收益 。 


























6.2.1.2 ”学 习 条 件 统计 量 


有 时 我 们 并 不 是 想 学 习 一 个 完整 的 概率 分 布 p(y | 必 9)， 而 仅仅 是 想 学 习 在 给 定 
2 时 y 的 某 个 条 件 统计 量 。 

例如 ， 我 们 可 能 有 一 个 预测 器 fxz; 9)， 我 们 想 用 它 来 预测 y 的 均值 。 如 果 我 
们 使 用 一 个 足够 强大 的 神经 网 络 ， 我 们 可 以 认为 这 个 神经 网 络 能 够 表示 一 大 类 天 
数 中 的 任何 一 个 冰 数 上 ， 这 个 类 仅仅 被 一 些 特 征 所 限制 ， 例 如 连续 性 和 有 界 ， 而 不 
是 具有 特殊 的 参数 形式 。 从 这 个 角度 来 看 ， 我 们 可 以 把 代价 函数 看 作 是 一 个 泛 函 
(functional ) 而 不 仅仅 是 一 个 函数 。 泛 郴 是 本 数 到 实数 的 映射 。 我 们 因此 可 以 将 学 习 
看 作 是 选择 一 个 困 数 而 不 仅仅 是 选择 一 组 参数 。 我 们 可 以 设计 代价 泛 机 在 我 们 想 要 
的 某 些 特殊 函数 处 取得 最 小 值 。 例 如 , 我 们 可 以 设计 一 个 代价 泛 机 , 使 它 的 最 小 值 处 
于 一 个 特殊 的 郴 数 上 ， 这 个 冰 数 将 z 映射 到 给 定 z 时 y 的 期 望 值 。 对 枯 数 求解 优化 
问题 需要 用 到 变 分 法 ( calculus of variations ) 这 个 数学 工具 ， 我 们 将 在 第 19.4.2 节 
中 讨论 。 理 解 变 分 法 对 于 理解 本 章 的 内 容 不 是 必要 的 。 目 前 ， 只 需要 知道 变 分 法 可 
以 被 用 来 导出 下 面 的 两 个 结 

我 们 使 用 变 分 法 导出 的 第 一 个 结果 是 解 优 化 问题 





























广 二 本 PEy~pass||y 7 上 (6.14) 





得 到 








广 (z) = 屯 y~…paste(gl 加 I， 《6.15) 


要 求 这 个 函数 处 在 我 们 要 优化 的 类 里 。 换 句 话 说， 如 果 我 们 能 够 用 无 穷 多 的 、 来 源 
于 真实 的 数据 生成 分 布 的 样本 进行 训练 ， 最 小 化 均 方 误差 代价 函数 将 得 到 一 个 函数 ， 
它 可 以 用 来 对 每 个 z 的 值 预测 出 y 的 均值 。 
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不 同 的 代价 数 给 出 不 同 的 统计 量 。 第 二 个 使 用 变 分 法 得 到 的 结果 是 











人 Exy~pasa|ly 一刀 四 | 《6.16) 





将 得 到 一 个 函数 可 以 对 每 个 z 预测 y 取 值 的 中 位 数 ， 只 要 这 个 函数 在 我 们 要 优化 的 
函数 族 里 。 这 个 代价 函数 通常 被 称 为 平均 绝对 误差 (mean absolute error )。 

可 惜 的 是 ， 均 方 误 差 和 平均 绝对 误差 在 使 用 基于 梯度 的 优化 方法 时 往往 成 效 不 
佳 。 一 些 饱 和 的 输出 单元 当 结合 这 些 代 价 函 数 时 会 产生 非常 小 的 梯度 。 这 就 是 为 什 
么 交叉 代 价 函 数 比 均 方 误差 或 者 平均 绝对 误差 更 受 欢迎 的 原因 之 一 了 ， 即 使 是 在 
没 必要 估计 整个 p(y | z) 分 布 时 。 


6.2.2 ”输出 单元 

代价 函数 的 选择 与 输出 单元 的 选择 紧密 相关 。 大 多 数 时 候 ， 我 们 简单 地 使 用 数 
据 分 布 和 模型 分 布 间 的 交叉 箭 。 选 择 如 何 表示 输出 决定 了 交叉 录 函 数 的 形式 。 

任何 可 用 作 输 出 的 神经 网 络 单元 ， 也 可 以 被 用 作 隐 藏 单 元 。 这 里 ， 我 们 着 重 讨 
论 将 这 些 单 元 用 作 模 型 输出 时 的 情况 ， 不 过 原则 上 它们 也 可 以 在 内 部 使 用 。 我 们 将 
在 第 6.3 节 中 重 温 这 些 单元 ， 并 且 给 出 当 它们 被 用 作 隐 藏 单元 时 一 些 额 外 的 细节 。 

在 本 节 中 ， 我 们 假设 前 馈 网 络 提供 了 一 组 定义 为 疡 = jz; 0) 的 隐藏 特征 。 输 出 
层 的 作用 是 随后 对 这 些 特征 进行 一 些 额外 的 变换 来 完成 整个 网 络 必 须 完 成 的 任务 。 


6.2.2.1 ”用 于 高 斯 输出 分 布 的 线性 单元 





一 种 简单 的 输出 单元 是 基于 仿 射 变换 的 输出 单元 ， 仿 射 变 换 不 具有 非 线性 。 

些 单 元 往往 被 直接 称 为 线性 单元 。 
给 定 特征 娘 ， 线 性 输出 单元 层 产生 一 个 向 量 = 琵 " 记 十 b 
线性 输出 层 经 常 被 用 来 产生 条 件 高 斯 分 布 的 均值 : 


FT 


岂 











DZ) = 外 . (6.17) 


最 大 化 其 对 数 似 然 此 时 等 价 于 最 小 化 均 方 误差 。 


最 大 似 然 框架 也 使 得 学 习 高 斯 分 布 的 协 方差 矩阵 更 加 容易 ， 或 更 容易 地 使 高 斯 
分 布 的 协 方差 矩阵 作为 输入 的 函数 。 然 而 ， 对 于 所 有 输入 ， 协 方差 矩阵 都 必须 被 限 
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定 成 一 个 正定 和 矩阵。 线性 输出 层 很 难 满 足 这 种 限定 ， 所 以 通 党 使 用 其 他 的 输出 单元 
来 对 协 方差 参数 化 。 对 协 方差 建 模 的 方法 将 在 第 6.2.2.4 节 中 简要 介绍 。 

因为 线性 模型 不 会 饱和 ， 所 以 它们 易于 采用 基于 梯度 的 优化 算法 ， 甚 至 可 以 使 
用 其 他 多 种 优化 算法 。 














6.2.2.2 ”用 于 Bernoulli 输出 分 布 的 sigmoid 单元 

许多 任务 需要 预测 二 值 型 变量 y 的 值 。 具 有 两 个 类 的 分 类 问题 可 以 归结 为 这 种 
形式 。 

此 时 最 大 似 然 的 方法 是 定义 y 在 zz 条 件 下 的 Bernoulli 分 布 。 

Bernoulli 分 布 仅 需 单 个 参数 来 定义 。 神 经 网 络 只 需要 预测 P(y = 1 | z) 即 可 。 
为 了 使 这 个 数 是 有 效 的 概率 ， 它 必须 处 在 区 间 [0,1] 中 。 

为 满足 该 约束 条 件 需 要 一 些 细 致 的 设计 工作 。 假 设 我 们 打算 使 用 线性 单元 ， 并 
且 通 过 阔 值 来 限制 它 成 为 一 个 有 效 的 概率 : 








忆 V 三 1 


这 的 确定 义 了 一 个 有 效 的 条 件 概率 分 布 ， 但 我 们 无 法 使 用 梯度 下 降 来 高 效 地 训练 它 。 
当 也 "天 十 处 于 单位 区 间 外 时 ， 模 型 的 输出 对 其 参数 的 梯度 都 将 为 0。 梯 度 为 0 通 
党 是 有 问题 的 ， 因 为 学 习 算 法 对 于 如 何 改善 相应 的 参数 不 再 具有 指导 意义 。 

相反 ， 最 好 是 使 用 一 种 新 的 方法 来 保证 无 论 何 时 模型 给 出 了 错误 的 答案 时 ， 总 
能 有 一 个 较 大 的 梯度 。 这 种 方法 是 基于 使 用 sigmoid 输出 单元 结合 最 大 似 然 来 实现 
的 。 

sigmoid 输出 单元 定义 为 


z) = max {0,min{fl,w 疡 十 夺 } (6.18) 











少 = (ww 六 十 上 ， (6.19) 


这 里 co 是 第 3.10 节 中 介绍 的 logistic sigmoid 函 数 。 

我 们 可 以 认为 sigmoid 输出 单元 具有 两 个 部 分 。 首 先 ， 它 使 用 一 个 线性 层 来 计 
算 > = 也 十 b。 接着 ， 它 使 用 sigmoid 激活 函数 将 > 转化 成 概率 。 

我 们 暂时 忽略 对 于 z 的 依赖 性 ， 只 讨论 如 何 用 > 的 值 来 定义 y 的 概率 分 布 。 
sigmoid 可 以 通过 构造 一 个 非 归 一 化 〈 和 不 为 1 ) 的 概率 分 布 忆 (y) 来 得 到 。 我 们 可 
以 随后 除 以 一 个 合适 的 稼 数 来 得 到 有 效 的 概率 分 布 。 如 果 我 们 假定 非 归 一 化 的 对 数 
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概率 对 y 和 > 是 线性 的 ， 可 以 对 它 取 指 数 来 得 到 非 归 一 化 的 概率 。 我 们 然后 对 它 归 
一 化 ， 可 以 发 现 这 服从 Bernoulli 分 布 ， 该 分 布 受 z 的 sigmoid 变换 控制 ; 





log P(y) = yz， (6.20) 

Po) = exp(y2)， (6.21) 
exp(y2) 

P) = 0 (6.22) 

PU) = ct(2y 一 蕊 z)， (6.23) 


基于 指数 和 归 一 化 的 概率 分 布 在 统计 建 模 的 文献 中 很 常见 。 用 于 定义 这 种 二 值 型 变 
量 分 布 的 变量 > 被 称 为 分 对 数 (logit )。 

这 种 在 对 数 空间 里 预测 概率 的 方法 可 以 很 自然 地 使 用 最 大 似 然 学 习 。 因 为 用 于 
最 大 似 然 的 代价 函数 是 -log P(y | 四 ， 代 价 函 数 中 的 log 抵消 了 sigmoid 中 的 exp。 
如 果 没 有 这 个 效果 ，sigmoid 的 饱和 性 会 阻止 基于 梯度 的 学 习 做 出 好 的 改进 。 我 们 使 
用 最 大 似 然 来 学 习 一 个 由 sigmoid 参数 化 的 Bernoulli 分 布 ， 它 的 损失 函数 为 





J(0) = 一 logPy | mm) (6.24) 
三 一 logo((2y 一 J)z) (6.25) 
一 6(( 一 29)2)， (6.26) 





这 个 推导 使 用 了 第 3.10 节 中 的 一 些 性 质 。 通 过 将 损失 函数 写成 softplus 函数 的 
形式 ， 我 们 可 以 看 到 它 仅仅 在 (1 - 2y)z 取 绝 对 值 非常 大 的 负 值 时 才 会 饱和。 因此 饱 
和 只 会 出 现在 模型 已 经 得 到 正确 答案 时 一 一 当 y=1 且 > 取 非 常 大 的 正 值 时 ， 或 者 
=0 且 z 取 非常 小 的 负 值 时 。 当 z 的 符号 错误 时 ，softplus 函数 的 变量 (1 - 2y)z 
可 以 简化 为 |z|。 当 |z| 变 得 很 大 并 且 > 的 符号 错误 时 ，softplus 函 数 渐 近 地 趋 问 于 它 
的 变量 |z|。 对 > 求 导 则 渐 近 地 趋 癌 于 sign(z， 所 以 ， 对 于 极限 情况 下 极度 不 正确 的 
2，gsoftplus 困 数 完全 不 会 收缩 梯度 。 这 个 性 质 很 有 用 ， 因 为 它 意味 着 基于 梯度 的 学 
习 可 以 很 快 地 改正 错误 的 >。 

当 我 们 使 用 其 他 的 损失 函数 ， 例 如 均 方 误差 之 类 的 ， 损 失 函 数 会 在 c(z) 饱和 时 
饱和 。sigmoid 激活 函数 在 > 取 非 常 小 的 负 值 时 会 饱和 到 0， 当 > 取 非 常 大 的 正 值 时 
会 饱和 到 1。 这 种 情况 一 旦 发 生 ， 梯 度 会 变 得 非常 小 以 至 于 不 能 用 来 学 习 ,， 无 论 此 时 
模型 给 出 的 是 正确 还 是 错误 的 答案 。 因 此 ， 最 大 似 然 几 乎 总 是 训练 sigmoid 输出 单 
元 的 优选 方法 。 
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理论 上 ，sigmoid 的 对 数 总 是 确定 和 有 限 的 ， 因 为 sigmoid 的 返回 值 总 是 被 限制 
在 开 区 间 (0,1) 上 ， 而 不 是 使 用 整个 闭 区 间 [0, 1] 的 有 效 概率 。 在 软件 实现 时 ， 为 了 
避免 数值 问题 ， 最 好 将 负 的 对 数 似 然 写 作 > 的 图 数 ， 而 不 是 乡 = c(z) 的 函数 。 如 
果 sigmoid 函数 下 溢 到 零 ， 那 么 之 后 对 少 取 对 数 会 得 到 负 无 穷 。 








6.2.2.3 ”用 于 Multinoulli 输出 分 布 的 softmax 单元 


任何 时 候 当 我 们 想 要 表示 一 个 具有 对 个 可 能 取 值 的 离散 型 随机 变量 的 分 布 时 ， 
我 们 都 可 以 使 用 softmax 函数 。 它 可 以 看 作 是 sigmoid 函数 的 扩展 ,其 中 sigmoid 郴 
数 用 来 表示 二 值 型 变量 的 分 布 。 

softmax 国 数 最 常用 作 分 类 器 的 输出 ， 来 表示 7 个 不 同类 上 的 概率 分 布 。 比 较 
少见 的 是 ，softmax 了 数 可 以 在 模型 内 部 使 用 ， 例 如 如 果 我 们 想 要 在 某 个 内 部 变量 的 
. 个 不 同 选项 中 进行 选择 。 

在 二 值 型 变量 的 情况 下 ， 我 们 希望 计算 一 个 单独 的 数 








= PWw=1|a 四 . (6.27) 


因为 这 个 数 需 要 处 在 0 和 1 之 间 ， 并 且 我 们 想 要 让 这 个 数 的 对 数 可 以 很 好 地 用 于 对 
数 似 然 的 基于 梯度 的 优化 ,我 们 选择 去 预测 另外 一 个 数 > = log Pty = 1 | 四。 对 其 
指数 化 和 归 一 化 ， 我 们 就 得 到 了 一 个 由 sigmoid 函数 控制 的 Bernoulli 分 布 。 

为 了 推广 到 具有 mn 个 值 的 离散 型 变量 的 情况 ,我们 现在 需要 创造 一 个 向 量 包 
它 的 每 个 元 素 是 人 = P(y = ;| 加。 我 们 不 仅 要求 每 个 六 元 素 介 于 0 和 1 之 间 ， 还 
要 使 得 整个 向 量 的 和 为 1， 使 得 它 表示 一 个 有 效 的 概率 分 布 。 用 于 Bernoulli 分 布 的 
方法 同样 可 以 推广 到 Multinoulli 分 布 。 首 先 ， 线 性 层 预 测 了 未 归 一 化 的 对 数 概率 : 














z= 全 尹 十 (6.28) 





其 中 福 =logPly = 四。softmax 函数 然后 可 以 对 > 指数 化 和 归 一 化 来 获得 需要 
的 加 最 终 ，softmax 数 的 形式 为 
exp( 亏 ) 


2jexp(27) 


和 logistic sigmoid 一 样 ， 当 使 用 最 大 化 对 数 似 然 训练 softmax 来 输出 目标 值 
时 ， 使 用 指数 本 数 工作 地 非常 好 。 这 种 情况 下 ， 我 们 想 要 最 大 化 log P(y = 为 = 


softmax(2); 一 (6.29) 
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log softmax(z)ji。 将 softmax 定义 成 指数 的 形式 是 很 自然 的 因为 对 数 似 然 中 的 log 可 
以 抵消 softmax 中 的 exp: 


log softmax(2; = 力 一 log 》 exp(2). (6.30) 
交 


式 (6.30) 中 的 第 一 项 表示 输入 才 总 是 对 代价 函数 有 直接 的 贡献 。 因 为 这 一 项 不 
会 饱和 , 所 以 即使 二 对 式 (6.30) 的 第 二 项 的 贡献 很 小 , 学 习 依 然 可 以 进行 。 当 最 大 化 
对 数 似 然 时 , 第 一 项 残 励 被 推 高 , 而 第 二 项 则 鼓励 所 有 的 z 被 压低 。 为 了 对 第 二 项 
log > exp(z) 有 一 个 直观 的 理解 , 注意 到 这 一 项 可 以 大 致 近似 为 maxi oj。 这 种 近似 
是 基于 对 任何 明显 小 于 maxj 2 的 罗 ，exp( 罗 ) 都 是 不 重要 的 。 我 们 能 从 这 种 近似 中 
得 到 的 直觉 是 , 负 对 数 似 然 代价 函 数 总 是 强烈 地 惩罚 最 活跃 的 不 正确 预测 。 如 果 正 确 
答案 已 经 具有 了 softmax 的 最 大 输入 ,那么 - 闷 项 和 log > jexp(z) 久 maxj 蕊 一 访 
项 将 大 致 抵消 。 这 个 样本 对 于 整体 训练 代价 贡献 很 小 ， 这 个 代价 主要 由 其 他 未 被 正 
确 分 类 的 样本 产生 。 

到 目前 为 止 我 们 只 讨论 了 一 个 例子 。 总 体 来 说 ， 未 正则 化 的 最 大 似 然 会 驱动 模 
型 去 学 习 一 些 参数 ， 而 这 些 参 数 会 驱动 softmax 函数 来 预测 在 训练 集中 观察 到 的 每 
个 结果 的 比率 : 








汉 当 1yG) 二 iaz0D) 一 z 
渤 当 5 
因为 最 大 似 然 是 一 致 的 估计 量 ， 所 以 只 要 模型 族 能 够 表示 训练 的 分 布 ， 这 就 能 保证 
发 生 。 在 实践 中 ， 有 限 的 模型 能 力 和 不 完美 的 优化 将 意味 着 模型 只 能 近似 这 些 比率 。 

除了 对 数 似 然 之 外 的 许多 目标 函数 对 softmax 函数 不 起 作用 。 具 体 来 说 ， 那 些 
不 使 用 对 数 来 抵消 softmax 中 的 指数 的 目标 柚 数 ， 当 指数 函数 的 变量 取 非 常 小 的 负 
值 时 会 造成 梯度 消失 ,从 而 无 法 学 习 。 特 别 是 , 平方 误差 对 于 softmax 单元 来 说 是 一 
个 很 差 的 损失 六 数 ， 即 使 模型 做 出 高 度 可 信 的 不 正确 预测 ， 也 不 能 训练 模型 改变 其 
输出 (Briqle, 1990)。 要 理解 为 什么 这 些 损失 函数 可 能 失败 ， 我 们 需要 检查 softmax 
函数 本 身 。 

像 sigmoid 一 样 ，softmax 激活 函数 可 能 会 饱和 。sigmoid 困 数 具有 单个 输出 ， 
当 它 的 输入 极端 负 或 者 极端 正 时 会 饱和。 对 于 softmax 的 情况 ， 它 有 多 个 输出 值 。 
当 输 入 值 之 间 的 差异 变 得 极端 时 ， 这 些 输出 值 可 能 饱和 。 当 softmax 饱和 时 ， 基 于 
softmax 的 许多 代价 函数 也 饱和 ， 除 非 它们 能 够 转化 饱和 的 激活 函数 。 

为 了 说 明 softmax 天 数 对 于 输入 之 间 差 异 的 响应 ， 观 察 到 当 对 所 有 的 输入 都 加 





softmax(z(Z; 0)); 久 (6.31) 
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上 一 个 相同 党 数 时 softmax 的 输出 不 变 : 
softmax(2) 一 Softmax(z 十 c). (6.32) 


使 用 这 个 性 质 ， 我 们 可 以 导出 一 个 数值 方法 稳定 的 softmax 函数 的 变 体 : 





softmax(2) = Softmax(z 一 max)， (6.33) 


变换 后 的 形式 允许 我 们 在 对 softmax 函数 求 值 时 只 有 很 小 的 数值 误差 ， 即 使 是 当 > 
包含 极 正 或 者 极 负 的 数 时 。 观 察 softmax 数值 稳定 的 变 体 ， 可 以 看 到 softmax 函数 
由 它 的 变量 偏离 max; 2% 的 量 来 驱动 。 

当 其 中 一 个 输入 是 最 大 〈(z = maxi 罗 ) 并 且 六 远大 于 其 他 的 输入 时 ， 相 应 的 
输出 softmax(z; 会 饱和 到 1。 当 x 不 是 最 大 值 并 且 最 大 值 非常 大 时 ， 相 应 的 输出 
softmax(2; 也 会 他 和 到 0。 这 是 sigmoid 单元 饱和 方式 的 一 般 化 ， 并 且 如 果 损 失 郴 
数 不 被 设计 成 对 其 进行 补偿 ， 那 么 也 会 造成 类 似 的 学 习 困 难 。 

softmax 了 数 的 变量 z 可 以 通过 两 种 方式 产生 。 最 常见 的 是 简单 地 使 神经 网 络 
较 早 的 层 输出 z 的 每 个 元 素 ， 就 像 先前 描述 的 使 用 线性 层 z = 全 天 十 bg。 虽然 很 直 
观 ， 但 这 种 方法 是 对 分 布 的 过 度 参 数 化 。7m 个 输出 总 和 必须 为 1 的 约束 意味 着 只 
风 .一 工 个 参数 是 必要 的 ; 第 ”个 概率 值 可 以 通过 1 减 去 前 面 见 一 1 个 概率 来 获得 。 
此 ， 我 们 可 以 强制 要 求 z 的 一 个 元 素 是 固定 的 。 例 如 ， 我 们 可 以 要 求 加 = 0。 事 实 
上 ， 这 正 是 sigmoid 单元 所 做 的 。 定 义 P(y = 1 工 | z) = cl(z) 等 价 于 用 二 维 的 z 以 及 
2 一 0 来 定义 P = 工 | mo = softmax(z 轨 1。 无 论 是 见 一 1 个 变量 还 是 ”个 变量 的 方 
法 ， 都 描述 了 相同 的 概率 分 布 ， 但 会 产生 不 同 的 学 习 机 制 。 在 实践 中 ， 无 论 是 过 度 
参数 化 的 版 本 还 是 限制 的 版 本 都 很 少 有 差别 ， 并 且 实 现 过 度 参数 化 的 版 本 更 为 简单 。 

从 神经 科学 的 角度 看 ， 有 趣 的 是 认为 softmax 是 一 种 在 参与 其 中 的 单元 之 间 形 
成 竞争 的 方式 : softmax 输出 总 是 和 为 1， 所 以 一 个 单元 的 值 增加 必然 对 应 着 其 他 单 
元 值 的 减少 。 这 与 被 认为 存在 于 皮质 中 相 邻 神经 元 间 的 侧 抑制 类 似 。 在 极端 情况 下 
( 当 最 大 的 o; 和 其 他 的 在 幅度 上 差异 很 大 时 )， 它 变 成 了 赢 者 通 吃 ( winner-take-all ) 
的 形式 〈 其 中 一 个 输出 接近 1， 其 他 的 接近 0 )。 

“softmax?” 的 名 称 可 能 会 让 人 产生 困惑 。 这 个 函数 更 接近 于 argmax 国 数 而 不 是 
max 图 数 。“soft” 这 个 术语 来 源 于 softmax 函 数 是 连续 可 微 的 “argmax” 函数 的 结 
果 表 示 为 一 个 one-hot 向 量 ( 只 有 一 个 元 素 为 1， 其余 元 素 都 为 0 的 向 量 )， 不 是 连续 
和 可 微 的 。softmax 函数 因此 提供 了 argmax 的 “软化 ”版 本 。max 函数 相应 的 软化 
版 本 是 softmax(z) zx。 可 能 最 好 是 把 softmax 数 称 为 “softargemax”"， 但 当前 名 称 
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已 经 是 一 个 根深 蒂 固 的 习惯 了 。 





6.2.2.4 “其 他 的 输出 类 型 


之 前 描述 的 线性 、sigmoid 和 softmax 输出 单元 是 最 常见 的 。 神 经 网 络 可 以 推广 
到 我 们 和 希望 的 几乎 任何 种 类 的 输出 层 。 最 大 似 然 原 则 给 如 何 为 几乎 任何 种 类 的 输出 
层 设 计 一 个 好 的 代价 函数 提供 了 指导 。 

一 般 的 ， 如 果 我 们 定义 了 一 个 条 件 分 布 p(y| 于 9)， 最 大 似 然 原则 建议 我 们 使 用 
-logp(y | 29) 作为 代价 琐 数 。 

一 般 来 说 ， 我 们 可 以 认为 神经 网 络 表 示 天 数 /zi 9)。 这 个 函数 的 输出 不 是 对 y 
值 的 直接 预测 。 相 反 ，j(z 6) = w 提供 了 y 分 布 的 参数 。 我 们 的 损失 机 数 就 可 以 表 
示 成 -logp(yiw(z))。 

例如 ， 我 们 想 要 学 习 在 给 定 x 时 ，y 的 条 件 高 斯 分 布 的 方差 。 简 单 情况 下 ， 方 
差 o? 是 一 个 浓 数 ， 此 时 有 一 个 解析 表达 式 ， 这 是 因为 方差 的 最 大 似 然 估 计量 仪 仅 是 
观测 值 y 与 它们 的 期 望 值 的 差 值 的 平方 平均 。 一 种 计算 上 代价 更 加 高 但 是 不 需要 写 
特殊 情况 代码 的 方法 是 简单 地 将 方差 作为 分 布 p(y | 四 的 其 中 一 个 属性 ， 这 个 分 布 
由 w = jz; 9) 控制 。 负 对 数 似 然 -logp(Wgw( 四 ) 将 为 代价 函数 提供 一 个 必要 的 合 
适 项 来 使 我 们 的 优化 过 程 可 以 逐渐 地 学 到 方差 。 在 标准 差 不 依赖 于 输入 的 简单 情况 
下 ， 我 们 可 以 在 网 络 中 创建 一 个 直接 复制 到 w 中 的 新 参数 。 这 个 新 参数 可 以 是 o 本 
身 ， 或 者 可 以 是 表示 52 的 参数 v， 或 者 可 以 是 表示 总 的 参数 86， 取决 于 我 们 怎样 
对 分 布 参数 化 。 我 们 可 能 希望 模型 对 不 同 的 x 值 预测 出 y 不 同 的 方差 。 这 被 称 为 异 
方差 (heteroscedastic ) 模型 。 在 异 方差 情况 下 ， 我 们 简单 地 把 方差 指定 为 fx; 0) 
其 中 一 个 输出 值 。 实 现 它 的 典型 方法 是 使 用 精度 而 不 是 方差 来 表示 高 斯 分 布 ， 就 像 
式 (3.22) 所 描述 的 。 在 多 维 变量 的 情况 下 ， 最 常见 的 是 使 用 一 个 对 角 精 度 和 矩阵 





















































diag(G). (6.34) 


这 个 公式 适用 于 梯度 下 降 ， 因 为 由 B 参数 化 的 高 斯 分 布 的 对 数 似 然 的 公式 仅 涉及 应 
的 乘法 和 log 5 的 加 法 。 乘 法 、 加 法 和 对 数 运算 的 梯度 表现 良好 。 相 比 之 下 ， 如 果 
我 们 用 方差 来 参数 化 输出 ， 我 们 需要 用 到 除法 。 除 法 函数 在 零 附近 会 变 得 任意 陡峭 。 
虽然 大 梯度 可 以 帮助 学 习 ， 但 任意 大 的 梯度 通常 导致 不 稳定 。 如 果 我 们 用 标准 差 来 
参数 化 输出 ， 对 数 似 然 仍然 会 涉及 除法 ， 并 且 还 将 涉及 平方 。 通 过 平方 运算 的 梯度 
可 能 在 零 附 近 消 失 ， 这 使 得 学 习 被 平方 的 参数 变 得 困难 。 无 论 我 们 使 用 的 是 标准 差 ， 


6.2 基于 梯度 的 学 习 163 





方差 还 是 精度 ， 我 们 必须 确保 高 斯 分 布 的 协 方差 矩阵 是 正定 的 。 因 为 精度 矩阵 的 特 
征 值 是 协 方差 矩阵 特征 值 的 倒数 ， 所 以 这 等 价 于 确保 精度 矩阵 是 正定 的 。 如 果 我 们 
使 用 对 角 和 天 阵 ， 或 者 是 一 个 常数 乘 以 单位 矩阵 1， 那 么 我 们 需要 对 模型 输出 强加 的 唯 
一 条 件 是 它 的 元 素 都 为 正 。 如 果 我 们 假设 a 是 用 于 确定 对 角 精 度 的 模型 的 原始 激活 ， 
那么 可 以 用 softplus 函数 来 获得 正 的 精度 向 量 : B = 6(a)。 这 种 相同 的 策略 对 于 方 
差 或 标准 差 同样 适用 ， 也 适用 于 常数 乘 以 单位 阵 的 情况 。 

学 习 一 个 比 对 角 和 矩阵 具有 更 丰富 结构 的 协 方差 或 者 精度 矩阵 是 很 少见 的 。 如 果 
协 方差 矩阵 是 满 的 和 有 条 件 的 ， 那 么 参数 化 的 选择 就 必须 要 保证 预测 的 协 方差 矩阵 
是 正定 的 。 这 可 以 通过 写成 瑟 (z) = 瑟 ( 四 ) 瑟 (z) 来 实现 ， 这 里 妃 是 一 个 无 约束 的 方 
阵 。 如 果 和 抢 阵 是 满 秩 的 ， 那 么 一 个 实际 问题 是 计算 似 然 的 代价 是 很 高 的 ， 计 算 一 个 
dxd 的 和 珑 阵 的 行列 式 或 者 瑟 (z) 的 逆 (或 者 等 价 地 并 且 更 常用 地 ， 对 它 特 征 值 分 解 
或 者 B8(z) 的 特征 值 分 解 ) 需要 O(d3) 的 计算 量 。 

我 们 经 常 想 要 执行 多 峰 回 归 (multimodal regression)， 即 预测 条 件 分 布 p(y | 下) 
的 实 值 ， 该 条 件 分 布 对 于 相同 的 z 值 在 y 空间 中 有 多 个 不 同 的 峰值 。 在 这 种 情况 下 ， 
高 斯 混合 是 输出 的 自然 表示 (Jacobs et ol., 1991; Bishop,， 1994。 将 高 斯 混合 作为 其 
输出 的 神经 网 络 通常 被 称 为 混合 密度 网 络 (mixture density network )。 具 有 了 个 分 
量 的 高 斯 混合 输出 由 下 面 的 条 件 分 布 定义 : 





P(y | z) 一 >_pz( = mN(EAGO(m, 瑟 (四 )， 《6.35) 


神经 网 络 必须 有 三 个 输出 : 定义 pf(c = ii | 2) 的 向 量 ， 对 所 有 的 守 给 出 AGO(z) 的 矩 
阵 ， 以 及 对 所 有 的 ;给 出 瑟 @(z) 的 张 量 。 这 些 输出 必须 满足 不 同 的 约束 : 





1. 混合 组 件 pfc = | 四 : 它们 由 潜 变 量 ? ec 关联 着 ， 在 m 个 不 同 组 件 上 形 
成 Multinoulli 分 布 。 这 个 分 布 通常 可 以 由 7? 维 向 量 的 softmax 来 获得 ， 以 确 
保 这 些 输出 是 正 的 并 且 和 为 1。 


2. 均值 &(m: 它们 指明 了 与 第 ;个 高 斯 组 件 相 关联 的 中 心 或 者 均值 ， 并 且 是 无 

约束 的 〈 通 党 对 于 这 些 输出 单元 完全 没有 非 线性 )。 如 果 y 是 个 d 维 回 量 ， 那 

1L 译 者 注 : 这 里 原文 是 “If we use a diagonal matrix, or a scalar times the diagonal matrix..” 即 “如 果 我 们 使 

用 对 角 和 矩 阵 ， 或 者 是 一 个 标量 乘 以 对 角 和 抑 阵 ..”， 但 一 个 标量 乘 以 对 角 和 矩阵 和 对 角 和 矩阵 没 区 别 ， 结 合 上 下 文 可 以 看 出 ， 
原作 者 误 把 “identity” 写 成 了 “diagonal matrix”， 因 此 这 里 采用 “常数 乘 以 单位 矩阵 ”的 译 法 。 

?我 们 之 所 以 认为 c 是 潜在 的 ， 是 因为 我 们 不 能 直接 在 数据 中 观测 到 它 : 给 定 输入 x 和 目标 y， 不 可 能 确切 地 知道 

是 哪个 高 斯 组 件 产生 y， 但 我 们 可 以 想象 y 是 通过 选择 其 中 一 个 来 产生 的 ， 并 且 将 那个 未 被 观测 到 的 选择 作为 随机 变 


里 。 
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么 网 络 必须 输出 一 个 由 允 个 这 种 4 维 向 量 组 成 的 风 x da 的 矩阵 。 用 最 大 似 然 来 
学 习 这 些 均 值 要 比 学习 只 有 一 个 输出 模式 的 分 布 的 均值 稍稍 复杂 一 些 。 我 们 只 
想 更 新 那个 真正 产生 观测 数据 的 组 件 的 均值 。 在 实践 中 ， 我 们 并 不 知道 是 哪个 
组 件 产 生 了 观测 数据 。 负 对 数 似 然 表 达 式 将 每 个 样本 对 每 个 组 件 的 贡献 进行 赋 
权 ， 权 重 的 大 小 由 相应 的 组 件 产 生 这 个 样本 的 概率 来 决定 。 


. 协 方差 0(m: 它们 指明 了 每 个 组 件 ; 的 协 方差 矩阵 。 和 学 习 单 个 高 斯 组 件 时 
一 样 ， 我 们 通常 使 用 对 角 和 矩阵 来 避免 计算 行列 式 。 和 学 习 混 合 均值 时 一 样 ， 最 
大 似 然 是 很 复杂 的 ， 它 需要 将 每 个 点 的 部 分 责任 分 配给 每 个 混合 组 件 。 如 果 给 
定 了 混合 模型 的 正确 的 负 对 数 似 然 ， 梯 度 下 降 将 自动 地 遵循 正确 的 过 程 。 





CD 





有 报告 说 基于 梯度 的 优化 方法 对 于 混合 条 件 高 斯 (作为 神经 网 络 的 输出 ) 可 能 是 不 
可 靠 的 , 部 分 是 因为 涉及 到 除法 〈 除 以 方差 ) 可 能 是 数值 不 稳定 的 〈 当 某 个 方差 对 于 
特定 的 实例 变 得 非常 小 时 ， 会 导致 非常 大 的 梯度 )。 一 种 解决 方法 是 梯度 截断 〈clip 
gradient ) ( 见 第 10.11.1 节 )， 另 外 一 种 是 启发 式 缩放 梯度 (Murray and Larochelle， 
2014)。 


高 斯 混合 输出 在 语音 生成 模型 (Schuster, 1999) 和 物理 运动 (Graves, 2013) 中 特 
别 有 效 。 混 合 密度 策略 为 网 络 提供 了 一 种 方法 来 表示 多 种 输出 模式 ， 并 且 控 制 输出 
的 方差 ， 这 对 于 在 这 些 实数 域 中 获得 高 质量 的 结果 是 至 关 重 要 的 。 混 合 密度 网 络 的 
一 个 实例 如 图 6.4 所 示 。 

一 般 的 ， 我 们 可 能 希望 继续 对 包含 更 多 变量 的 、 更 大 的 向 量 y 来 建 模 ， 并 在 
这 些 输出 变量 上 施加 更 多 更 丰富 的 结构 。 例 如 ， 我们 可 能 希望 神经 网 络 输出 字符 序 
列 形成 一 个 句子 。 在 这 些 情况 下 ， 我 们 可 以 继续 使 用 最 大 似 然 原理 应 用 到 我 们 的 模 
型 p(W%w(z) 上 ， 但 我 们 用 来 描述 y 的 模型 会 变 得 非常 复杂 ， 超 出 了 本 章 的 范畴 。 
第 十 章 描述 了 如 何 使 用 循环 神经 网 络 来 定义 这 种 序列 上 的 模型 ， 第 三 部 分 描述 了 对 
任意 概率 分 布 进行 建 模 的 高 级 技术 。 
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图 6.4: 从 具有 混合 密度 输出 层 的 神经 网 络 中 抽取 的 样本 。 输 入 z 从 均匀 分 布 中 采样 ， 输 出 y 从 
Dmoael(y | z) 中 采样 。 神 经 网 络 能 够 学 习 从 输入 到 输出 分 布 的 参数 的 非 线性 映射 。 这 些 参数 包括 控 
制 三 个 组 件 中 的 哪 一 个 将 产生 输出 的 概率 ， 以 及 每 个 组 件 各 自 的 参数 。 每 个 混合 组 件 都 是 高 斯 分 
布 ， 具 有 预测 的 均值 和 方差 。 输 出 分 布 的 这 些 方面 都 能 够 相对 输入 z 变化 ， 并 且 以 非 线性 的 方式 
改变 。 







































































6.3 ”隐藏 单元 


到 目前 为 止 , 我 们 集中 讨论 了 神经 网 络 的 设计 选择 , 这 对 于 使 用 基于 梯度 的 优化 
方法 来 训练 的 大 多 数 参 数 化 机 融 学 习 模 型 都 是 通用 的 。 现 在 我 们 转向 一 个 前 馈 神 经 
网 络 独 有 的 问题 : 该 如 何 选择 隐藏 单元 的 类 型 ， 这 些 隐 藏 单元 用 在 模型 的 隐藏 层 中 。 

隐藏 单元 的 设计 是 一 个 非常 活跃 的 研究 领域 ， 并 且 还 没有 许多 明确 的 指导 性 理 
论 原 则 。 

整流 线性 单元 是 隐藏 单元 极 好 的 默认 选择 。 许 多 其 他 类 型 的 隐藏 单元 也 是 可 用 
的 。 决 定 何 时 使 用 哪 种 类 型 的 隐藏 单元 是 困难 的 事 〈 尽 管 整流 线性 单元 通常 是 一 个 
可 接受 的 选择 )。 我 们 这 里 描述 对 于 每 种 隐藏 单元 的 一 些 基本 直觉 。 这 些 直觉 可 以 用 
来 建议 我 们 何 时 来 尝试 一 些 单元 。 通 常 不 可 能 预先 预测 出 哪 种 隐藏 单元 工作 得 最 好 。 
设计 过 程 充满 了 试验 和 错误 ， 驳 直觉 认 为 某 种 隐藏 单元 可 能 表现 良好 ， 然 后 用 它 组 
成 神经 网 络 进行 训练 ， 最 后 用 验证 集 来 评 佑 它 的 性 能 。 

这 里 列 出 的 一 些 隐 藏 单元 可 能 并 不 是 在 所 有 的 输入 点 上 都 是 可 微 的 。 例 如 ， 整 
流 线 性 单元 9g(z) = max{0,z} 在 z = 0 处 不 可 微 。 这 似乎 使 得 9 对 于 基于 梯度 的 学 
习 算法 无 效 。 在 实践 中 , 梯度 下 降 对 这 些 机 咒 学 习 模 型 仍然 表现 得 足够 好 。 部 分 原因 
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是 神经 网 络 训练 算法 通常 不 会 达到 代价 函数 的 局 部 最 小 值 ， 而 是 仅仅 显著 地 减 小 它 
的 值 ， 如 图 4.3 所 示 。 这 些 想法 会 在 第 八 章 中 进一步 描述 。 因 为 我 们 不 再 期 望 训练 能 
够 实际 到 达 梯 度 为 0 的 点 ， 所 以 代价 函数 的 最 小 值 对 应 于 梯度 未 定义 的 点 是 可 以 接 
受 的 。 不 可 微 的 隐藏 单元 通常 只 在 少数 点 上 不 可 微 。 一 般 来 说 ， 函 数 9(z) 具有 左 导 
数 和 右 导 数 ， 左 导数 定义 为 紧邻 在 * 左边 的 函数 的 斜率 ， 右 导数 定义 为 紧邻 在 > 右 
边 的 函数 的 斜率 。 只 有 当 函 数 在 * 处 的 左 导数 和 右 导 数 都 有 定义 并 且 相 等 时 ， 函 数 
在 > 点 处 才 是 可 微 的 。 神 经 网 络 中 用 到 的 函数 通常 对 左 导数 和 右 导 数 都 有 定义 。 在 
g(z) = max{0,z} 的 情况 下 ， 在 z = 0 处 的 左 导数 是 0， 右 导数 是 1。 神 经 网 络 训练 
的 软件 实现 通常 返回 左 导 数 或 右 导 数 的 其 中 一 个 ， 而 不 是 报告 导数 未 定义 或 产生 -- 
个 错误 。 这 可 以 通过 观察 到 在 数字 计算 机 上 基于 梯度 的 优化 总 是 会 受到 数值 误差 的 
影响 来 启发 式 地 给 出 理由 。 当 一 个 函数 被 要 求 计算 9(0) 时 ， 底 层 值 真正 为 0 是 不 太 
可 能 的 。 相 对 的 ， 它 可 能 是 被 舍 人 为 0 的 一 个 小 量 e。 在 某 些 情况 下 ,理论 上 有 更 好 
的 理由 ， 但 这 些 通常 对 神经 网 络 训练 并 不 适用 。 重 要 的 是 ， 在 实践 中 ， 我 们 可 以 放 
心地 忽略 下 面 描述 的 隐藏 单元 激活 函数 的 不 可 微 性 。 

除非 另 有 说 明 ， 大 多 数 的 隐藏 单元 都 可 以 描述 为 接受 输入 向 量 =， 计 算 仿 射 变 
换 z = 分 Tz 十 b， 然 后 使 用 一 个 逐 元 素 的 非 线性 函数 g(]。 大 多 数 隐藏 单元 的 区 别 
仅仅 在 于 激活 函数 9( 志 的 形式 。 




















6.3.1 整流 线性 单元 及 其 扩展 


整流 线性 单元 使 用 激活 函数 g(z) = max{0,z}。 

整流 线性 单元 易于 优化 ， 因 为 它们 和 线性 单元 非 党 类似。 线性 单元 和 整流 线性 
单元 的 唯一 区 别 在 于 整流 线性 单元 在 其 一 半 的 定义 域 上 输出 为 零 。 这 使 得 只 要 整流 
线性 单元 处 于 激活 状态 ， 它 的 导数 都 能 保持 较 大 。 它 的 梯度 不 仅 大 而 且 一 致 。 整 流 
操作 的 一 阶 导 数 几乎 处 处 为 0， 并 且 在 整流 线性 单元 处 于 激活 状态 时 ， 它 的 一 阶 导 数 
处 处 为 1。 这 意味 着 相 比 于 引入 二 阶 效应 的 激活 函数 来 说 , 它 的 梯度 方向 对 于 学 习 来 
说 更 加 有 用 。 


整流 线性 单元 通常 作用 于 仿 射 变换 之 上 : 
































= 9g( 信 zz 二 有 中. (6.36) 


当初 始 化 仿 射 变换 的 参数 时 ， 可 以 将 的 所 有 元 素 设置 成 一 个 小 的 正 值 ， 例 如 0.1。 
这 使 得 整流 线性 单元 很 可 能 初始 时 就 对 训练 集中 的 大 多 数 输入 呈现 激活 状态 ， 并 且 
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人 允许 导数 通过 。 

有 很 多 整流 线性 单元 的 扩展 存在 。 大 多 数 这 些 扩展 的 表现 比 得 上 整流 线性 单元 ， 
并 且 偶 尔 表现 得 更 好 。 

整流 线性 单元 的 一 个 缺陷 是 它们 不 能 通过 基于 梯度 的 方法 学 习 那 些 使 它们 激活 
为 零 的 样本 。 整 流 线 性 单元 的 各 种 扩展 保证 了 它们 能 在 各 个 位 置 都 接收 到 梯度 。 

整流 线性 单元 的 三 个 扩展 基于 当 六 < 0 时 使 用 一 个 非 零 的 斜率 ui: 访 = 
9g( 2 ah)i = max(0, 思 ) 十 azmin(0,2)。 绝 对 值 整 流 (absolute value rectication ) 固 
定 a = -1 来 得 到 9g(z) = |z|。 它 用 于 图 像 中 的 对 象 识别 (Jarrett et al., 2009a) , 其 中 
寻找 在 输入 照明 极 性 反 转 下 不 变 的 特征 是 有 意义 的 。 整 流 线 性 单元 的 其 他 扩展 比 这 
应 用 地 更 广泛 。 渗 漏 整流 线性 单元 (Leaky ReLU ) (Maas et ol., 2013) 将 mw 固定 成 
一 个 类 似 0.01 的 小 值 ， 参 数 化 整流 线性 单元 (parametric ReLU ) 或 者 PReLU 将 
oai 作为 学 习 的 参数 (He et ol., 2015)。 

maxout 单元 (maxout unit ) (Goodfellow et wL.,， 2013a) 进一步 扩展 了 整流 线 
性 单元 。maxonut 单元 将 z 划分 为 每 组 具有 K 个 值 的 组 ， 而 不 是 使 用 作用 于 每 个 元 
素 的 函数 9(z)。 每 个 maxout 单元 则 输出 每 组 中 的 最 大 元 素 : 


























9(zi 一 人 (6.37) 

这 里 GO 是 组 ;的 输入 索引 集 {( 下 JE 十 1 , 庆 }。 这 提供 了 一 种 方法 来 学 习 对 输 
入 有 空间 中 多 个 方向 响应 的 分 段 线性 函数 。 

maxout 单元 可 以 学 习 具 有 多 达 8 段 的 分 段 线性 的 凸 函 数 。maxonut 单元 因此 可 
以 视 为 学 习 激 活 函 数 本 身 而 不 仅仅 是 单元 之 间 的 关系 。 使 用 足够 大 的 天，maxonut 单 
元 可 以 以 任意 的 精确 度 来 近似 任何 凸 函 数 。 特 别 地 ， 具 有 两 块 的 maxout 层 可 以 学 
习 实 现 和 传统 层 相同 的 输入 z 的 函数 ， 这 些 传统 层 可 以 使 用 整流 线性 激活 函数 、 绝 
对 值 整流 、 渗 漏 整 流 线 性 单元 或 参数 化 整流 线性 单元 ， 或 者 可 以 学 习 实 现 与 这 些 都 
不 同 的 函数 。maxout 层 的 参数 化 当然 也 将 与 这 些 层 不 同 ， 所 以 即使 是 maxonut 学 习 
去 实现 和 其 他 种 类 的 层 相 同 的 z 的 函数 这 种 情况 下 ， 学 习 的 机 理 也 是 不 一 样 的 。 

每 个 maxont 单元 现在 由 天 个 权重 向 量 来 参数 化 , 而 不 仅仅 是 一 个 ,所 以 maxout 
单元 通常 比 整流 线性 单元 需要 更 多 的 正则 化 。 如 果 训 练 集 很 大 并 且 每 个 单元 的 块 数 
保持 很 低 的 话 ， 它 们 可 以 在 没有 正则 化 的 情况 下 工作 得 不 错 (Cai et al., 2013)。 

maxout 单元 还 有 一 些 其 他 的 优点 。 在 某 些 情况 下 ， 要 求 更 少 的 参数 可 以 获得 一 
些 统计 和 计算 上 的 优点 。 有 具体 来 说 ， 如 果 由 ?个 不 同 的 线性 过 滤器 描述 的 特征 可 以 
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在 不 损失 信息 的 情况 下 ， 用 每 一 组 大 个 特征 的 最 大 值 来 概括 的 话 ， 那 么 下 一 层 可 以 
获得 & 倍 更 少 的 权重 数 。 

因为 每 个 单元 由 多 个 过 滤器 驱动 ，maxonut 单元 具有 一 些 元 余 来 帮助 它们 抵抗 一 
种 被 称 为 灾难 遗忘 (catastrophic forgetting ) 的 现象 ， 这 个 现象 是 说 神经 网 络 忘记 
了 如 何 执行 它们 过 去 训练 的 任务 (Goodfellow et al.， 2014a)。 

整流 线性 单元 和 它们 的 这 些 扩展 都 是 基于 一 个 原则 ， 那 就 是 如 果 它 们 的 行为 更 
接近 线性 ， 那 么 模型 更 容易 优化 。 使 用 线性 行为 更 容易 优化 的 一 般 性 原则 同样 也 适 
用 于 除 深度 线性 网 络 以 外 的 情景 。 循 环 网 络 可 以 从 序列 中 学 习 并 产生 状态 和 输出 的 
序列 。 当 训练 它们 时 ， 需 要 通过 一 些 时 间 步 来 传播 信息 ， 当 其 中 包含 一 些 线性 计算 
(有 具有 大 小 接近 1 的 某 些 方向 导数 ) 时 ， 这 会 更 容易 。 作 为 性 能 最 好 的 循环 网 络 结构 
之 一 ，LSTM 通过 求 和 在 时 间 上 传播 信息 ， 这 是 一 种 特别 直观 的 线性 激活 。 它 将 在 
第 10.10 节 中 进一步 讨论 。 



































6.3.2 logistic sigmoid 与 双 曲 正切 函数 


在 引入 整流 线性 单元 之 前 ， 大 多 数 神经 网 络 使 用 logistic sigmoid 激活 函数 





9(z) = a(2) (6.38) 


或 者 是 双 曲 正切 激活 函数 
9g(z) = tanh(z). (6.39) 

这 些 激活 函数 紧密 相关 ， 因 为 tanh(z) = 2a(2z) -1。 

我 们 已 经 看 过 sigmoid 单元 作为 输出 单元 用 来 预测 二 值 型 变量 取 值 为 1 的 概率 。 
与 分 段 线性 单元 不 同 ，sigmoid 单元 在 其 大 部 分 定义 域内 都 饱和 一 一 当 > 取 绝 对 值 
很 大 的 正 值 时 ， 它 们 饱和 到 一 个 高 值 ， 当 > 取 绝 对 值 很 大 的 负 值 时 ， 它 们 饱和 到 一 
个 低 值 ， 并 且 仅 仅 当 > 接近 0 时 它们 才 对 输入 强烈 敏感 。sigmoid 单元 的 广泛 饱和 
性 会 使 得 基于 梯度 的 学 习 变 得 非常 困难 。 因 为 这 个 原因 ， 现 在 不 鼓励 将 它们 用 作 前 
人 玺 网 络 中 的 隐藏 单元 。 当 使 用 一 个 合适 的 代价 函数 来 抵消 sigmoid 的 饱和 性 时 ， 它 
们 作为 输出 单元 可 以 与 基于 梯度 的 学 习 相 兼容 。 

当 必 须要 使 用 sigmoid 激活 函数 时 ， 双 曲 正切 激活 函数 通常 要 比 logistic sig- 
moid 函数 表现 更 好 。 在 tanh(0) = 0 而 c(0) = 卫 的 意义 上 ， 它 更 像 是 单位 函数 。 
为 tanh 在 0 附近 与 单位 函数 类 似 ， 训 练 深层 神经 网 络 少 = wrtanh(U tanh( mm)) 
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类 似 于 训练 一 个 线性 模型 放 = wT DY z， 只 要 网 络 的 激活 能 够 被 保持 地 很 小 。 这 
使 得 训练 tanh 网 络 更 加 容易 。 

sigmoid 激活 函数 在 除了 前 馈 网 络 以 外 的 情景 中 更 为 常见 。 循 环 网 络 、 许 多 概率 
模型 以 及 一 些 自 编码 咒 有 一 些 额外 的 要 求 使 得 它们 不 能 使 用 分 段 线性 激活 函数 ， 并 
且 使 得 sigmoid 单元 更 具有 吸引 力 ， 尽 管 它 存在 饱和 性 的 问题 。 











6.3.3 ”其 他 隐藏 单元 





也 存在 许多 其 他 种 类 的 隐藏 单 元 ， 但 它们 并 不 常用 。 

一 般 来 说 ， 很 多 种 类 的 可 微 函 数 都 表现 得 很 好 。 许 多 未 发 布 的 激活 函数 与 流行 
的 激活 函数 表现 得 一 样 好 。 为 了 提供 一 个 具体 的 例子 ， 作 者 在 MNIST 数据 集 上 使 
用 灵 = cos(Wz+D 测试 了 一 个 前 乌 网 络 ， 并 获得 了 小 于 1 名 的 误差 率 ， 这 可 以 与 
更 为 传统 的 激活 冰 数 获得 的 结果 相 媲 美 。 在 新 技术 的 研究 和 开发 期 间 ， 通 常会 测试 
许多 不 同 的 激活 函数 ， 并 且 会 发 现 许 多 标准 方法 的 变 体 表 现 非常 好 。 这 意味 着 ， 通 
常 新 的 隐藏 单元 类 型 只 有 在 被 明确 证 明 能 够 提供 显著 改进 时 才 会 被 发 布 。 新 的 隐藏 
单元 类 型 如 果 与 已 有 的 隐藏 单元 表现 大 致 相当 的 话 ， 那 么 它们 是 非常 常见 的 ， 不 会 
引起 别人 的 兴 

列 出 文献 中 出 现 的 所 有 隐藏 单元 类 型 是 不 切实 际 的。 我 们 只 对 一 些 特别 有 用 和 
独特 的 类 型 进行 强调 。 
其 中 一 种 是 完全 没有 激活 函数 9g(z)。 也 可 以 认为 这 是 使 用 单位 函数 作为 激活 函 
数 的 情况 。 我 们 已 经 看 过 线性 单元 可 以 用 作 神 经 网 络 的 输出 。 它 也 可 以 用 作 隐 藏 单 
元 。 如 果 神 经 网 络 的 每 一 层 都 仅 由 线性 变换 组 成 ， 那 么 网 络 作为 一 个 整体 也 将 是 线 
性 的 。 然 而 ， 神 经 网 络 的 一 些 层 是 纯 线性 也 是 可 以 接受 的 。 考 虑 具有 史 个 输入 和 7P 
个 输出 的 神经 网 络 层 疡 = 9( 了 三 z 十 世 。 我 们 可 以 用 两 层 来 代替 它 ， 一 层 使 用 权重 矩 
阵 UV， 另 一 层 使 用 权重 和 矩阵 VY。 如果 第 一 层 没 有 激活 函数 ， 那 么 我 们 对 基于 萝 的 
原始 层 的 权重 矩阵 进行 因 式 分 解 。 分 解 方法 是 计算 天 = 9g(Y TIz+)。 如 果 世 产 
生 了 da 个 输出 ,那么 蕊 和 一 起 仅 包 含 (” 十 p)d 个 参数 ， 而 全 包含 wp 个 参数 。 
如 果 9 很 小 ， 这 可 以 在 很 大 程度 上 节省 参数 。 这 是 以 将 线性 变换 约束 为 低 秩 的 代价 
来 实现 的 ， 但 这 些 低 秩 关系 往往 是 足够 的 。 线 性 隐藏 单元 因此 提供 了 一 种 减少 网 络 
中 参数 数量 的 有 效 方法 。 

softmax 单元 是 另外 一 种 经 常用 作 输 出 的 单元 ( 如 第 6.2.2.3 节 中 所 描述 的 )， 但 
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有 时 也 可 以 用 作 隐 藏 单元 。softmax 单元 很 自然 地 表示 具有 友 个 可 能 值 的 离散 型 随 
机 变量 的 概率 分 布 ， 所 以 它们 可 以 用 作 一 种 开关 。 这 些 类 型 的 隐藏 单元 通常 仅 用 于 
明确 地 学 习 操 作 内 存 的 高 级 结构 中 ， 将 在 第 10.12 节 中 描述 。 

其 他 一 些 常 见 的 隐藏 单元 类 型 包括 : 








。 径 向 基 函 数 (radial basis function RBF ): 态 = exp (一 训 | 酌 :一 台中 。 这 个 
函数 在 z 接近 模板 例 ,* 时 更 加 活跃 。 因 为 它 对 大 部 分 z 都 饱和 到 0， 因 此 很 
难 优化 。 





e。 softplus 函 数 : 9(o) = (ao) = log(1 + e")。 这 是 整流 线性 单元 的 平滑 版 本 ， 
由 Dugas et aol. (2001) 引入 用 于 郴 数 近 似 , 由 Nair and Hinton (2010a) 引入 用 
于 无 向 概率 模型 的 条 件 分 布 。Glorot et ol/. (2011a) 比较 了 softplus 和 整流 线性 
单元 ， 发 现 后 者 的 结果 更 好 。 通 常 不 鼓励 使 用 softplus 函数 。softplus 表明 隐藏 
单元 类 型 的 性 能 可 能 是 非常 反 直 党 的 一 一 因为 它 处 处 可 导 或 者 因为 它 不 完全 饱 
和 ， 人 们 可 能 希望 它 具 有 优 于 整流 线性 单元 的 点 ， 但 根据 经 验 来 看 ， 它 并 没有 。 








。 硬 双 曲 正切 函数 (hard tanh ): 它 的 形状 和 tanh 以 及 整流 线性 单元 类 似 , 但 是 
不 同 于 后 者 ， 它 是 有 界 的 ，g(a) = max(-1,min(l,ao))。 它 由 Collobert (2004) 
引入 。 





隐藏 单元 的 设计 仍然 是 一 个 活跃 的 研究 领域 ， 许 多 有 用 的 隐藏 单 元 类 型 仍 有 待 
发 现 。 


6.4 架构 设计 

神经 网 络 设计 的 另 一 个 关键 点 是 确定 它 的 架构 。 架构 (architecture ) 一 词 是 指 
网 络 的 整体 结构 : 它 应 该 具有 多 少 单元 ， 以 及 这 些 单元 应 该 如 何 连 接 。 

大 多 数 神经 网 络 被 组 织 成 称 为 层 的 单元 组 。 大 多 数 神经 网 络 架构 将 这 些 层 布置 
成 链 式 结构 ， 其 中 每 一 层 都 是 前 一 层 的 函数 。 在 这 种 结构 中 ， 第 一 层 由 下 式 给 出 ; 


A = 90 (WOTzTbO); (6.40) 








第 二 层 由 
hO = 9 (WTAD Tb) (6.41) 
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给 出 ， 以 此 类 推 。 


在 这 些 链 式 架构 中 ， 主 要 的 架构 考虑 是 选择 网 络 的 深度 和 每 一 层 的 宽度 。 我 们 
将 会 看 到 ， 即 使 具有 一 个 隐藏 层 的 网 络 也 足够 适应 训练 集 。 更 深层 的 网 络 通常 能 够 
对 每 一 层 使 用 更 少 的 单元 数 和 更 少 的 参数 ， 并 且 经 常 容易 泛 化 到 测试 集 ， 但 是 通常 
也 更 难以 优化 。 对 于 一 个 具体 的 任务 ， 理 想 的 网 络 架 构 必 须 通过 实验 ， 观 测 在 验证 
集 上 的 误差 来 找到 。 





6.4.1 “万 能 近似 性 质 和 深度 


线性 模型 ， 通 过 和 矩阵 乘法 将 特征 映射 到 输出 ， 顾 名 思 义 ， 仅 能 表示 线性 函数 。 它 

具有 易于 训练 的 优点 , 因为 当 使 用 线性 模型 时 , 许多 损失 前 数 会 导出 凸 优化 问题 。 可 
惜 的 是 ， 我 们 经 带 硕 望 我 们 的 系统 学 习 非 线性 冰 数 。 
乍 一 看 ， 我 们 可 能 认为 学 习 非 线性 函数 需要 为 我 们 想 要 学 习 的 那 种 非 线性 专 
门 设 计 一 类 模型 族 。 幸 运 的 是 ， 有 具有 隐藏 层 的 前 馈 网 络 提供 了 一 种 万 能 近似 框架 。 
具体 来 说 ， 万 能 近似 定理 (universal approximation theorem ) (Hornik et al.，1989; 
Cybenko, 1989) 表明 ， 一 个 前 乌 神 经 网 络 如 果 具 有 线性 输出 层 和 至 少 一 层 具 有 任何 
一 种 “ 挤 压 ” 性质 的 激活 函数 (例如 logistic sigmoidqd 激 活 函 数 ) 的 隐藏 层 ， 只 要 给 予 
网 络 足够 数量 的 隐藏 单元 ， 它 可 以 以 任意 的 精度 来 近似 任何 从 一 个 有 限 维 空间 到 另 
一 个 有 限 维 空间 的 Borel 可 测 函 数 。 前 馈 网 络 的 导数 也 可 以 任意 好 地 来 近似 函数 的 
导数 (Hornik et a1., 1990)。Borel 可 测 的 概念 超出 了 本 书 的 范畴 ;对 于 我 们 想 要 实 
现 的 目标 ， 只 需要 知道 定义 在 尺 ” 的 有 界 闭 集 上 的 任意 连续 男 数 是 Borel 可 测 的 ， 
因此 可 以 用 神经 网 络 来 近似 。 神 经 网 络 也 可 以 近似 从 任何 有 限 维 离散 空间 映射 到 另 
一 个 的 任意 函数 。 虽 然 原始 定理 最 初 以 具有 特殊 激活 函数 的 单元 的 形式 来 撒 述 ， 这 
个 激活 函数 当 变 量 取 绝 对 值 非常 大 的 正 值 和 负 值 时 都 会 人 饱和， 万 能 近似 定理 也 已 经 
被 证 明 对 于 更 广泛 类 别 的 激活 函数 也 是 适用 的 ， 其 中 就 包括 现在 常用 的 整流 线性 单 
元 (Leshno et al.，1993)。 

万 能 近似 定理 意味 着 无 论 我 们 试图 学 习 什 么 函数 ， 我 们 知道 一 个 大 的 MLP 一 
定 能 够 表示 这 个 国 数 。 然 而 ， 我 们 不 能 保证 训练 算法 能 够 学 得 这 个 函数 。 即 使 MLP 
能 够 表示 该 函数 ， 学 习 也 可 能 因 两 个 不 同 的 原因 而 失败 。 首 先 ， 用 于 训练 的 优化 算 
法 可 能 找 不 到 用 于 期 望 机 数 的 参数 值 。 其 次 ， 训 练 算法 可 能 由 于 过 拟 合 而 选择 了 错 
误 的 冰 数 。 回 忆 第 5.2.1 节 中 的 “没有 免费 的 午餐 ”定理 ， 说 明了 没有 普遍 优越 的 机 
器 学 习 算 法 。 前 馈 网 络 提供 了 表示 函数 的 万 能 系统 ， 在 这 种 意义 上 ， 给 定 一 个 函数 ， 
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存在 一 个 前 馈 网 络 能 够 近似 该 永 数 。 不 存在 万 能 的 过 程 既 能 够 验证 训练 集 上 的 特殊 
样本 ， 又 能 够 选择 一 个 函数 来 扩展 到 训练 集 上 没有 的 点 。 

万 能 近似 定理 说 明了 ， 存 在 一 个 足够 大 的 网 络 能 够 达到 我 们 所 希望 的 任意 精度 ， 
但 是 定理 并 没有 说 这 个 网 络 有 多 大 。Barron (1993) 提供 了 单 层 网 络 近似 一 大 类 函数 
所 需 大 小 的 一 些 界 。 不 幸 的 是 ， 在 最 坏 情况 下 ， 可 能 需要 指数 数量 的 隐藏 单元 ( 可 
能 一 个 隐藏 单元 对 应 着 一 个 需要 区 分 的 输入 配置 )。 这 在 二 进 制 值 的 情况 下 很 容易 看 
到 : 向 量 we {0,1}” 上 的 可 能 的 二 值 型 机 数 的 数量 是 2 ， 并 且 选 择 一 个 这 样 的 函 
数 需要 2" 位 ， 这 通常 需要 O(2") 的 自由 度 。 

总 之 ， 具 有 单 层 的 前 馈 网 络 足 以 表示 任何 函数 ， 但 是 网 络 层 可 能 大 得 不 可 实现 ， 
并 且 可 能 无 法 正确 地 学 习 和 泛 化 。 在 很 多 情况 下 ， 使 用 更 深 的 模型 能 够 减少 表示 期 
望 困 数 所 需 的 单元 的 数量 ， 并 且 可 以 减少 泛 化 误差 。 

存在 一 些 函数 族 能 够 在 网 络 的 深度 大 于 某 个 值 d 时 被 高 效 地 近似 ， 而 当 深 度 被 
限制 到 小 于 或 等 于 d 时 需要 一 个 远 远 大 于 之 前 的 模型 。 在 很 多 情况 下 ， 浅 层 模型 所 
需 的 隐藏 单元 的 数量 是 ”的 指数 级 。 这 个 结果 最 初 被 证 明 是 在 那些 不 与 连续 可 微 的 
神经 网 络 类 似 的 机 器 学 习 模 型 中 出 现 ， 但 现在 已 经 扩展 到 了 这 些 模型 。 第 一 个 结果 
是 关于 逻辑 门 电路 的 (Hastad, 1986)。 后 来 的 工作 将 这 些 结果 扩展 到 了 具有 非 负 权 
重 的 线性 阔 值 单元 (Hastad and Goldmann, 1991; Hajnal et oL,， 1993)， 然 后 扩展 到 
了 具有 连续 值 激活 的 网 络 (Maass,，1992; Maass et al.，1994)。 许 多 现代 神经 网 络 使 
用 整流 线性 单元 。Leshno et ol. (1993) 证 明 带 有 一 大 类 非 多 项 式 激 活 函 数 族 的 浅 层 
网 络 ， 包 括 整流 线性 单元 ， 具 有 万 能 的 近似 性 质 ， 但 是 这 些 结果 并 没有 强调 深度 或 
效率 的 问题 一 一 它们 仅 指出 足够 宽 的 整流 网 络 能 够 表示 任意 函数 。Montufar et o 
(2014) 指出 一 些 用 深度 整流 网 络 表示 的 函数 可 能 需要 浅 层 网 络 〈 一 个 隐藏 层 ) 指数 
级 的 隐藏 单元 才能 表示 。 更 确切 的 说 ， 他 们 说 明 分 段 线性 网 络 〈 可 以 通过 整流 非 线 
性 或 maxont 单元 获得 ) 可 以 表示 区 域 的 数量 是 网 络 深度 的 指数 级 的 函数 。 图 6.5 解 
释 了 带 有 绝对 值 整流 的 网 络 是 如 何 创 建 函 数 的 镜像 图 像 的 ， 这 些 函 数 在 其 些 隐 藏 单 
元 的 顶部 计算 ， 作 用 于 隐藏 单元 的 输入 。 每 个 隐藏 单元 指定 在 哪里 折 友 输入 空间 , 来 
创造 镜像 响应 〈 在 绝对 值 非 线性 的 两 侧 )。 通 过 组 合 这 些 折 肢 操 作 ， 我 们 获得 指数 级 
的 分 段 线性 区 域 ， 他 们 可 以 概括 所 有 种 类 的 规则 模式 〈 例 如 ， 重复 )。 

Montufar et ol/. (2014) 的 主要 定理 指出 ， 具 有 d 个 输入 、 深 度 为 1、 每 个 隐藏 
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图 6.5: 关于 更 深 的 整流 网 络 具 有 指数 优势 的 一 个 直观 的 几何 解释 ,来自 Montufar et al. (2014)。 
( 左 ) 绝 对 值 整流 单元 对 其 输入 中 的 每 对 镜像 点 有 相同 的 输出 。 镜 像 的 对 称 轴 由 单元 的 权重 和 偏 置 
定义 的 超 平 面 给 出 。 在 该 单元 顶部 计算 的 函数 (绿色 决策 面 ) 将 是 横 跨 该 对 称 轴 的 更 简单 模式 的 
一 个 镜像 。( 中 /) 该 函数 可 以 通过 折 和 三 对 称 轴 周 围 的 空间 来 得 到 。( 右 ) 另 一 个 重复 模式 可 以 在 第 一 
个 的 顶部 折 县 (由 另 一 个 下 游 单元 ) 以 获得 另外 的 对 称 性 (现在 重复 四 次 ， 使 用 了 两 个 隐藏 层 )。 
经 Montufar et al/. (2014) 许可 改编 此 图 。 



























































层 具 有 7 个 单元 的 深度 整流 网 络 可 以 描述 的 线性 区 域 的 数量 


(人 局 


意味 着 ， 这 是 深度 ! 的 指数 级 。 在 每 个 单元 具有 K 个 过 滤器 的 maxonut 网 络 中 ， 线 
性 区 域 的 数量 是 
O (KU -D+9) ， (6.43) 


当然 ， 我 们 不 能 保证 在 机 器 学 习 《〈 特 别 是 AI) 的 应 用 中 我 们 想 要 学 得 的 函数 类 
型 享有 这 样 的 属性 

我 们 还 可 能 出 于 统计 原因 来 选择 深度 模型 。 任 何 时 候 ,， 当 我 们 选择 一 个 特定 的 机 
器 学 习 算 法 时 , 我 们 隐 含 地 陈述 了 一 些 先 验 , 这 些 先 验 是 关于 算法 应 该 学 得 什么 样 的 
函数 的 。 选 择 深度 模型 默许 了 一 个 非常 普遍 的 信念 , 那 就 是 我 们 想 要 学 得 的 函数 应 该 
涉及 几 个 更 加 简单 的 函数 的 组 合 . 这 可 以 从 表示 学 习 的 观点 来 解释 , 我 们 相信 学 习 的 
问题 包含 发 现 一 组 潜在 的 变 差 因素 ， 它 们 可 以 根据 其 他 更 简单 的 潜在 的 变 差 因素 来 
摘 述 。 或 者 ,我 们 可 以 将 深度 结构 的 使 用 解释 为 另 一 种 信念 , 那 就 是 我 们 想 要 学 得 的 
函数 是 包含 多 个 步骤 的 计算 机 程序 ， 其 中 每 个 步骤 使 用 前 一 步 又 的 输出 。 这 些 中 间 
输出 不 一 定 是 变 差 因素 ， 而 是 可 以 类 似 于 网 络 用 来 组 织 其 内 部 处 理 的 计数 器 或 指针 。 
根据 经 验 ， 更 深 的 模型 似乎 确实 在 广泛 的 任务 中 泛 化 得 更 好 (Bengio et al.，2007b; 
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Erhan et ol., 2009; Bengio, 2009; Mesnil et al.,， 2011; Ciresan et al., 2012; Krizhevsky 
et ul., 2012a; Sermanet et al/., 2013; Farabet et al., 2013; Couprie et al., 2013; 人 ahou 
et al.,， 2013; Goodfellow et al.,， 2014d; Szegedy et ol.,， 2014a)。 图 6.6 和 图 6.7 展 示 了 
一 些 实验 结果 的 例子 。 这 表明 使 用 深层 架构 确实 在 模型 学 习 的 函数 空间 上 表示 了 一 
个 有 用 的 先 验 。 
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图 6.6: 深度 的 影响 。 实 验 结果 表明 ， 当 从 地 址 照片 转录 多 位 数字 时 ， 更 深层 的 网 络 能 够 更 好 地 泛 
化 。 数 据 来 自 Goodfellow et ol. (2014d)。 测 试 集 上 的 准确 率 随 着 次 度 的 增加 而 不 断 增加 。 图 6.7 给 
出 了 一 个 对 照 实验 ， 它 说 明了 对 模型 太 寸 其 他 方面 的 增加 并 不 能 产生 相同 的 效果 。 





























6.4.2 ”其 他 架构 上 的 考虑 


目前 为 止 ， 我 们 都 将 神经 网 络 描述 成 层 的 简单 链 式 结构 ， 主 要 的 考虑 因素 是 网 
络 的 深度 和 每 层 的 宽度 。 在 实践 中 ， 神 经 网 络 显示 出 相当 的 多 样 性 。 

许多 神经 网 络 架构 已 经 被 开发 用 于 特定 的 任务 。 用 于 计算 机 视觉 的 卷 积 神经 网 
络 的 特殊 架构 将 在 第 九 章 中 介绍 。 前 馈 网 络 也 可 以 推广 到 用 于 序列 处 理 的 循环 神经 
网 络 ， 但 有 它们 自己 的 架构 考虑 ， 将 在 第 十 章 中 介绍 。 

一 般 的 ， 层 不 需要 连接 在 链 中 ， 尽 管 这 是 最 常见 的 做 法 。 许 多 架构 构建 了 一 个 
主 链 ， 但 随后 又 添加 了 额外 的 架构 特性 ， 例 如 从 层 ;到 层 ;+ 2 或 者 更 高 层 的 跳跃 连 
接 。 这 些 跳跃 连接 使 得 梯度 更 容易 从 输出 层 流 向 更 接近 输入 的 层 。 

架构 设计 考虑 的 另外 一 个 关键 点 是 如 何 将 层 与 层 之 间 连 接 起 来 。 默 认 的 神经 网 
络 层 采用 和 阵 环 描述 的 线性 变换 ， 每 个 输入 单元 连接 到 每 个 输出 单元 。 在 之 后 章节 
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e 一。 3，convolutional 
十 才 3, fully connected 
及 妃 11, convolutional 
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图 6.7: 参数 数量 的 影响 。 更 深 的 模型 往往 表现 更 好 。 这 不 仅仅 是 因为 模型 更 大 。Goodfellow et al 

















(2014d) 的 这 项 实验 表明 ， 增 加 卷 积 网 络 层 中 参数 的 数量 ， 但 是 不 增加 它们 的 深度 ,在 提升 测试 集 
性 能 方面 几乎 没有 效果 ， 如 此 图 所 示 。 图 例 标 明了 用 于 画 出 每 条 曲线 的 网 络 深度 ， 以 及 曲线 表示 
的 是 卷 积 层 还 是 全 连接 层 的 大 小 变化 。 我 们 可 以 观察 到 ， 在 这 种 情况 下 ， 浅 层 模型 在 参数 数量 达 
到 2000 万 时 就 过 拟 合 ， 而 深层 模型 在 参数 数量 超过 6000 万 时 仍然 表现 良好 。 这 表明 ， 使 用 深层 
模型 表达 出 了 对 模型 可 以 学 习 的 函数 空间 的 有 用 偏好 。 有 具体 来 说 ， 它 表达 了 一 种 信念 ， 即 该 函数 
应 该 由 许多 更 简单 的 函数 复合 在 一 起 而 得 到 。 这 可 能 导致 学 习 由 更 简单 的 表示 所 组 成 的 表示 ( 例 
如 ， 由 边 所 定义 的 角 ) 或 者 学 习 具 有 顺序 依赖 步骤 的 程序 ( 例如 ,首先 定位 一 组 对 象 ， 然 后 分 割 它 
们 ， 之 后 识别 它们 )。 











































































































中 的 许多 专用 网 络 具 有 较 少 的 连接 ， 使 得 输入 层 中 的 每 个 单元 仅 连接 到 输出 层 单元 
的 一 个 小 子 集 。 这 些 用 于 减少 连接 数量 的 策略 减少 了 参数 的 数量 以 及 用 于 评 佑 网络 
的 计算 量 ， 但 通常 高 度 依赖 于 问题 。 例 如 ， 第 九 章 描述 的 卷 积 神经 网 络 使 用 对 于 计 
算 机 视 党 问题 非常 有 效 的 稀 琉 连接 的 专用 模式 。 在 这 一 章 中 ， 很 难 对 通用 神经 网 络 
的 架构 给 出 更 多 具体 的 建议 。 我 们 在 随后 的 章节 中 介绍 一 些 特殊 的 架构 策略 ， 可 以 
在 不 同 的 领域 工作 良好 。 
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当 我 们 使 用 前 馈 神经 网 络 接收 输入 z 并 产生 输出 勾 时 ， 信 息 通过 网 络 向 前 流 
动 。 输 入 z 提供 初始 信息 ， 然 后 传播 到 每 一 层 的 隐藏 单元 ， 最 终 产 生 输出 名 这 称 
之 为 前 向 传播 (forward propagation )。 在 训练 过 程 中 ， 前 向 传播 可 以 持续 向 前 直 
到 它 产 生 一 个 标量 代价 函数 J(9)。 反 向 传播 (back propagation ) 算法 (Rumelhant 
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et ol.，1986c)， 经 常 简称 为 packprop ， 人 允许 来 自 代价 遇 数 的 信息 通过 网 络 向 后 流动 ， 
以 便 计 算 梯度 。 

计算 梯度 的 解析 表达 式 是 很 直观 的 ， 但 是 数值 化 地 求解 这 样 的 表达 式 在 计算 上 
的 代价 可 能 很 大 。 反 上 向 传播 算法 使 用 简单 和 廉价 的 程序 来 实现 这 个 目标 。 

反 向 传播 这 个 术语 经 常 被 误解 为 用 于 多 层 神经 网 络 的 整个 学 习 算 法 。 实 际 上 ， 
反 向 传播 仅 指 用 于 计算 梯度 的 方法 ， 而 另 一 种 算法 ,例如 随机 梯度 下 降 ,， 使 用 该 梯度 
来 进行 学 习 。 此 外 ， 反 向 传播 经 常 被 误解 为 仅 适 用 于 多 层 神经 网 络 ， 但 是 原则 上 它 
可 以 计算 任何 函数 的 导数 (对 于 一 些 函 数 ， 正 确 的 响应 是 报告 机 数 的 导数 是 未 定义 
的 ) 特别 地 ， 我 们 会 描述 如 何 计算 一 个 任意 函数 太 的 梯度 V。jz 人 轨 ， 其 中 z 是 一 
组 变量 ， 我 们 需要 它们 的 导数 ， 而 y 是 郴 数 的 另外 一 组 输入 变量 ， 但 我 们 并 不 需要 
它们 的 导数 。 在 学 习 算 法 中 ,我们 最 常 需 要 的 梯度 是 代价 函数 关于 参数 的 梯度 ， 即 
VeJ(9)。 许 多 机 器 学 习 任 务 需 要 计算 其 他 导数 ， 来 作为 学 习 过 程 的 一 部 分 ， 或 者 用 
来 分 析 学 得 的 模型 。 反 向 传播 算法 也 适用 于 这 些 任务 ， 不 局 限于 计算 代价 函数 关于 
参数 的 梯度 。 通 过 在 网 络 中 传播 信息 来 计算 导数 的 想法 非常 普遍 ， 它 还 可 以 用 于 计 
算 诸如 多 输出 函数 广 的 Jacobian 的 值 。 我 们 这 里 描述 的 是 最 常用 的 情况 ， 其 中 7 
只 有 单个 输出 。 



































6.5.1 “计算 图 


目前 为 止 ， 我 们 已 经 用 相对 非 正 式 的 图 形 语 言 讨 论 了 神经 网 络 。 为 了 更 精确 地 
描述 反 向 传播 算法 ， 使 用 更 精确 的 计算 图 ( computational graph ) 语言 是 很 有 帮助 
的 。 

将 计算 形式 化 为 图 形 的 方法 有 很 多 。 

这 里 ,我 们 使 用 图 中 的 每 一 个 节点 来 表示 一 个 变量 。 变 量 可 以 是 标量 、 回 量 、 珑 
阵 、 张 量 、 或 者 甚至 是 另 一 类 型 的 变量 。 

为 了 形式 化 我 们 的 图 形 ， 我 们 还 需 引 入 操作 〈 operation ) 这 一 概念 。 操 作 是 指 
一 个 或 多 个 变量 的 简单 冰 数 。 我 们 的 图 形 语言 伴随 着 一 组 被 允许 的 操作 。 我 们 可 以 
通过 将 多 个 操作 复合 在 一 起 来 描述 更 为 复杂 的 函数 。 

不 失 一 般 性 , 我 们 定义 一 个 操作 仅 返 回 单个 输出 变量 。 这 并 没有 失去 一 般 性 , 是 
因为 输出 变量 可 以 有 多 个 条 目 ， 例 如 癌 量 。 反 向 传播 的 软件 实现 通常 支持 具有 多 个 
输出 的 操作 ， 但 是 我 们 在 描述 中 避免 这 种 情况 ， 因 为 它 引 入 了 对 概念 理解 不 重要 的 














6.5 反 向 传播 和 其 他 的 微分 算法 177 


许多 额外 细节。 
目 .ZTR 量 - 


如 果 变 量 y 是 变量 > 通过 一 个 操作 计算 得 到 的 ,那么 我 们 画 一 条 从 > 到 y 的 有 
向 边 。 我 们 有 时 用 操作 的 名 称 来 注释 输出 的 节点 ， 当 上 下 文 很 明确 时 ， 有 时 也 会 省 
略 这 个 标注 。 

计算 图 的 实例 可 以 参考 图 6.8 。 





图 6.8: 一 些 计算 图 的 示例 。(o) 使 用 x 操作 计算 > = zy 的 图 。(W 用 于 逻辑 回归 预测 少 
alz 十 上 的 图 。 一 些 中 间 表 达 式 在 代数 表达 式 中 没有 名 称 ， 但 在 图 形 中 却 需要 。 我 们 简单 地 
第 ; 个 这 样 的 变量 命名 为 w5 。(c) 表达 式 瓦 = max{f0, 瑟 全 十 碳 的 计算 图 ,在 给 定 包含 小 批 
输入 数据 的 设计 矩阵 和 时 ， 它 计算 整流 线性 单元 激活 的 设计 和 矩阵 五 。(o) 示例 arc 对 每 个 变量 最 
多 只 实施 一 个 操作 ， 但 是 对 变量 实施 多 个 操作 也 是 可 能 的 。 这 里 我 们 展示 一 个 计算 图 ， 它 对 线性 
回归 模型 的 权重 w 实施 多 个 操作 。 这 个 权重 不 仅 用 于 预测 少 ， 也 用 
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于 权重 衰减 罚 项 入 ,2。 
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6.5.2 ” 微 积分 中 的 链 式 法 则 


微 积 分 中 的 链 式 法 则 (为 了 不 与 概率 中 的 链 式 法 则 相 混 淆 ) 用 于 计算 复合 函数 
的 导数 。 反 向 传播 是 一 种 计算 链 式 法 则 的 算法 ， 使 用 高 效 的 特定 运算 顺序 。 
设 z 是 实数 ， 上 和 9 是 从 实数 映射 到 实数 的 函数 。 假 设 y = 9(z) 并 且 > = 
Jo(z)) = jW)。 那 么 链 式 法 则 是 说 
dz _ 邓 田 
0 (6.44) 
我 们 可 以 将 这 种 标量 情况 进行 扩展 。 假 设 ze 形 m,yE 了 "，9 是 从 下 闪 到 束 "” 的 
上 映 射 ， 儿 是 从 了 "到 形 的 映射 。 如 果 y = 9g(z) 并 且 > = 故人 轨 ， 那 么 





DOz DOz 0Wi 
7 
使 用 向 量 记 法 ， 可 以 等 价 地 写成 
DoNT 
又 党 三 (型 ) Vy2z， (6.46) 


这 里 童 是 9 的 mxmm 的 Jacobian 矩阵 。 

从 这 里 我 们 看 到 ， 变 量 z 的 梯度 可 以 通过 Jacobian 矩阵 党 和 梯度 Vyvz 相 乘 来 
得 到 。 反 向 传播 算法 由 图 中 每 一 个 这 样 的 Jacobian 梯度 的 乘积 操作 所 组 成 。 

通常 我 们 将 反 向 传播 算法 应 用 于 任意 维度 的 张 量 ， 而 不 仅仅 用 于 向 量 。 从 概念 
上 讲 ， 这 与 使 用 向 量 的 反 向 传播 完全 相同 。 唯 一 的 区 别 是 如 何 将 数字 排列 成 网 格 以 
形成 张 量 。 我 们 可 以 想象 ， 在 我 们 运行 反 向 传播 之 前 ， 将 每 个 张 量变 平 为 一 个 向 量 ， 
计算 一 个 向 量 值 梯度 ， 然 后 将 该 梯度 重新 构造 成 一 个 张 量 。 从 这 种 重新 排列 的 观点 
上 看 ， 反 向 传播 仍然 只 是 将 Jacobian 乘 以 梯度 。 

为 了 表示 值 > 关于 张 量 X 的 梯度 ， 我 们 记 为 Vxz， 就 像 X 是 向 量 一 样 。X 的 
索引 现在 有 多 个 坐标 例如 ， 一 个 3 维 的 张 量 由 三 个 坐标 索引 。 我 们 可 以 通过 
使 用 单个 变量 ; 来 表示 完整 的 索引 元 组 ， 从 而 完全 抽象 出 来 。 对 所 有 可 能 的 元 组 ;， 
(Vxz); 给 出 庇 。 这 与 向 量 中 索引 的 方式 完全 一 致 ，(V。z); 给 出 休 。 使 用 这 种 记 
法 ,我们 可 以 写 出 适用 于 张 量 的 链 式 法 则 。 如 果 Y = 9(X) 并 且 > = F(Y)， 那么 

ODz 


Vxz 一 2_(YxY)5Y7 (6.47) 























了 
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6.5.3 ”递归 地 使 用 链 式 法 则 来 实现 反 向 传播 


使 用 链 式 规则 ， 我 们 可 以 直接 写 出 某 个 标量 关于 计算 图 中 任何 产生 该 标量 的 节 
点 的 梯度 的 代数 表达 式 。 然 而 ， 实 际 在 计算 机 中 计算 该 表达 式 时 会 引入 一 些 额 外 的 
考虑 。 

具体 来 说 ， 许 多 子 表达 式 可 能 在 梯度 的 整个 表达 式 中 重复 若干 次 。 任 何 计算 樟 
度 的 程序 都 需要 选择 是 存储 这 些 子 表达 式 还 是 重新 计算 它们 几 次 。 图 6.9 给 出 了 一 个 
例子 来 说 明 这 些 重复 的 子 表达 式 是 如 何 出 现 的 。 在 某 些 情况 下 ， 计 算 两 次 相同 的 子 
表达 式 纯粹 是 浪费 。 在 复杂 图 中 ， 可 能 存在 指数 多 的 这 种 计算 上 的 浪费 ， 使 得 简单 
的 链 式 法 则 不 可 实现 。 在 其 他 情况 下 ， 计 算 两 次 相同 的 子 表达 式 可 能 是 以 较 高 的 运 
行 时 间 为 代价 来 减少 内 存 开销 的 有 效 手段。 

我 们 首先 给 出 一 个 版 本 的 反 向 传播 算法 ， 它 指明 了 梯度 的 直接 计算 方式 ( 算 
法 6.2 以 及 相关 的 正 向 计算 的 算法 6.1 )， 按 照 它 实际 完成 的 顺序 并 且 递 归 地 使 用 链 
式 法 则 。 我 们 可 以 直接 执行 这 些 计算 或 者 将 算法 的 描述 视 为 用 于 计算 反 向 传播 的 计 
算 图 的 符号 表示 。 然 而 ， 这 些 公式 并 没有 明确 地 操作 和 构造 用 于 计算 梯度 的 符号 图 。 
这 些 公式 将 在 后 面 的 第 6.5.6 节 和 算法 6.5 中 给 出 ， 其 中 我 们 还 推广 到 了 包含 任意 张 
量 的 节点 。 

首先 考虑 描述 如 何 计算 单个 标量 wo ( 例如 训练 样本 上 的 损失 函数 ) 的 计算 图 。 
我 们 想 要 计算 这 个 标量 对 闷 个 输入 节点 wD 到 us) 的 梯度 。 换 名 话说， 我 们 希望 
对 所 有 的 ie {1L 2 .mi} 计算 吕 人 。 在 使 用 反 向 传播 计算 梯度 来 实现 参数 的 梯度 
下 降 时 ，vwtm) 将 对 应 单个 或 者 小 批量 实例 的 代价 函数 ， 而 v0) 到 vt 则 对 应 于 模型 
的 参数 。 

我 们 假设 图 的 节点 已 经 以 一 种 特殊 的 方式 被 排序 ， 使 得 我 们 可 以 一 个 接 一 个 地 
计算 他 们 的 输出 ， 从 wei+D 开始 ， 一 直上 升 到 wm 。 如 算法 6.1 中 所 定义 的 ， 每 个 
节点 uG) 与 操作 JG@) 相关 联 ， 并 且 通 过 对 以 下 函数 求 值 来 得 到 


























人) (6.48) 





其 中 AGO 是 wo 所 有 父 节点 的 集合 。 

该 算法 详细 说 明了 前 向 传播 的 计算 ， 我 们 可 以 将 其 放 入 图 9 中 。 为 了 执行 反 向 
传播 ， 我 们 可 以 构造 一 个 依赖 于 9 并 添加 额外 一 组 节点 的 计算 图 。 这 形成 了 一 个 子 
图 B， 它 的 每 个 节点 都 是 9 的 节点 。86 中 的 计算 和 9 中 的 计算 顺序 完全 相反 ， 而 且 
妃 中 的 每 个 节点 计算 导数 2 与 前 向 图 中 的 节点 w(9 相关 联 。 这 通过 对 标量 输出 
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算法 6.1 计算 将 详 个 输入 vt 到 wo 映射 到 一 个 输出 vt) 的 程序 。 这 定义 了 一 
个 计算 图 ， 其 中 每 个 节点 通过 将 函数 /0) 应 用 到 变量 集合 A@ 上 来 计算 vt 的 值 ， 
AO 包含 先前 节点 wo) 的 值 满足 7 < 且 7 es Palu)。 计 算 图 的 输入 是 向 量 z， 并 
且 被 分 配给 前 ma 个 节点 vG) 到 wo。 计算 图 的 输出 可 以 从 最 后 一 个 〈 输 出 ) 节点 
ul") 读 出 。 

for 三 1..., 75 do 








5) 《4 Ti 

end for 

for 三 7 十 1 .0 do 
AI 二 fu 17ePauwG)} 
uG 4 GAO) 

end for 


return ?tn) 





ul) 使 用 链 式 法 则 来 完成 : 


un) Du) Du 
死 厅 一 现 林 现 林 
iTEPa(uGD) 





这 在 算法 6.2 中 详细 说 明 。 子 图 恰好 包含 每 一 条 对 应 着 9 中 从 节点 uC) 到 节点 
uG 的 边 。 从 wO) 到 wG) 的 边 对 应 着 计算 2。 另外 ， 对 于 每 个 节点 都 要 执行 一 个 
内 积 ， 内 积 的 一 个 因子 是 对 于 邮 子 节点 wa 的 已 经 计算 的 梯度 ， 另 一 个 因子 是 对 于 
相同 子 节点 wo 的 偏 导 数 2eo 组 成 的 向 量 。 总 而 言 之 ,执行 反 向 传播 所 需 的 计算 量 
与 9 中 的 边 的 数量 成 比例 ， 其 中 每 条 边 的 计算 包括 计算 偏 导数 ( 节点 关于 它 的 一 个 
父 节点 的 偏 导 数 ) 以 及 执行 一 次 乘法 和 一 次 加 法 。 下 面 ， 我 们 将 此 分 析 推广 到 张 量 
值 节点 ， 这 只 是 在 同一 节点 中 对 多 个 标量 值 进行 分 组 并 能 够 更 高 效 地 实现 。 

反 向 传播 算法 被 设计 为 减少 公共 子 表达 式 的 数量 而 不 考虑 存储 的 开销 。 具 体 来 
说 , 它 大 约 对 图 中 的 每 个 节点 执行 一 个 Jacobian 乘积 。 这 可 以 从 算法 6.2 中 看 出 , 反 
向 传播 算法 访问 了 图 中 的 节点 w) 到 节点 vG 的 每 条 边 一 次 ， 以 获得 相关 的 偏 导 数 
25。 反 向 传播 因此 避免 了 重复 子 表达 式 的 指数 爆炸 。 然 而 ， 其 他 算法 可 能 通过 对 
计算 图 进行 简化 来 避免 更 多 的 子 表达 式 ， 或 者 也 可 能 通过 重新 计算 而 不 是 存储 这 些 
子 表达 式 来 节省 内 存 。 我 们 将 在 描述 完 反 向 传播 算法 本 身后 再 重新 审视 这 些 想法 。 
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式 (6.44) 得 到 : 





式 (6.52) 


议 我 从 





向 传播 算法 所 采 ) 
次 。 在 蔡 代 方法 中 ， 
式 (6.52) 的 反 向 传播 方法 显然 是 较 优 的 ， 因 为 它 
有 效 实现 ， 并 






































每 次 只 在 需要 时 











且 当 存储 受 民 











民 时 它 是 


图 6.9: 计算 梯度 时 导致 重复 子 表 达 式 的 计算 
用 相同 的 操作 函数 上 :及 一 到， 
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图 。 令 we 屎 为 图 的 输入 。 我 们 对 链 中 的 每 一 步 使 
这 样 z = juo),y = zl,z = Fly)。 为 了 计算 经 ， 我 们 应 用 
Dz 
有 (6.50) 
0Oz 0y 07 
(6.51) 
= 上 广 O) 记 (zz)7(w) (6.52) 
= 户 (F(CFCo)))7(CFCo))FCo)， (6.53) 








有 用 的 。 








] 采 用 的 实现 方式 是 ， 仅 计算 jw) 的 值 一 次 并 将 它 存储 在 变量 > 中 。 这 是 反 
的 方法 。 式 (6.53) 提出 了 一 种 替代 方法 ， 其 中 子 表达 式 jw) 出 现 了 不 止 一 
新 计算 jw)。 当 存储 这 些 表达 式 的 值 所 需 的 存储 较 少 时 ， 

















减少 了 运行 时 间 。 然 而 ,， 式 (6.53) 也 是 链 式 法 则 的 


6.5.4 全 连接 MLP 中 的 反 向 传播 计算 


为 了 阐明 反 向 传播 的 上 述 定 


的 特定 图 。 


， 让 我 们 考虑 一 个 与 全 连接 的 多 层 MLP 相关 联 


算法 6.3 首先 给 出 了 前 向 传播 ， 它 将 参数 映射 到 与 单个 训练 样本 〈 输 入 ， 目 标 ) 
(z, 切 相关 联 的 监督 损失 函数 二 (多 急 ， 其 中 了 是 当 z 提供 输入 时 神经 网 络 的 输出 。 


算法 6.4 随 后 说 明了 将 反 向 传播 应 用 于 该 图 所 需 的 相关 计算 。 
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算法 6.2 反 向 传播 算法 的 简化 版 本 ， 用 于 计算 vc) 关于 图 中 变量 的 导数 。 这 个 示 
例 旨 在 通过 演示 所 有 变量 都 是 标量 的 简化 情况 来 进一步 理解 反 向 传播 算法 ， 这 里 我 
们 希望 计算 关于 wD，. ,us) 的 导数 。 这 个 简化 版 本 计算 了 关于 图 中 所 有 节点 的 导 
数 。 假 定 与 每 条 边 相关 联 的 偏 导数 计算 需要 恒定 的 时 间 的 话 ， 该 算法 的 计算 成 本 与 
图 中 边 的 数量 成 比例 。 这 与 前 向 传播 的 计算 次 数 具 有 相同 的 阶 。 每 个 2 是 uG 的 
父 节点 wuG) 的 函数 ， 从 而 将 前 向 图 的 节点 链接 到 反 向 传播 图 中 添加 的 节点 。 

运行 前 向 传播 (对 于 此 例 是 算法 6.1) 获得 网 络 的 激活 。 

初始 化 grad_table， 用 于 存储 计算 好 的 导数 的 数据 结构 。grad_table[vG] 将 存 
储 冯 们 计算 好 的 值 。 


grad_tablelu(o] 二 1 


























for 7 王 即 一 1 down to 1 do 


全 、 、 Cn) un) Du 人 
下 一 行使 用 存储 的 值 计 算 2 > ijJePatuG) 2 和 ， 
grad_tablelu)] < 2 zjePatuG) grad_table[u(9)] 2 





end for 


return {fgrad_tablelu] 1 一 1 .7 





算法 6.3 和 算法 6.4 是 简单 而 直观 的 演示 。 然 而 ， 它 们 专门 针对 特定 的 问题 。 
现在 的 软件 实现 基于 之 后 第 6.5.6 节 中 描述 的 一 般 形式 的 反 向 传播 ， 它 可 以 通过 
显 式 地 操作 表示 符号 计算 的 数据 结构 ,来 适应 任何 计算 图 。 





6.5.5 “符号 到 符号 的 导数 


代数 表达 式 和 计算 图 都 对 符号 ( symbol ) 或 不 具有 特定 值 的 变量 进行 操作 。 这 
些 代数 或 者 基于 图 的 表达 式 被 称 为 符号 表示 〈 symbolic representation )。 当 我 们 实 
际 使 用 或 者 训练 神经 网 络 时 ， 我 们 必须 给 这 些 符 号 赋 特 定 的 值 。 我 们 用 一 个 特定 
的 数值 (numeric value ) 来 奉 代 网 络 的 符号 输入 z， 例 如 [1.2,3,765, 一 1.8]T。 

一 些 反 向 传播 的 方法 采用 计算 图 和 一 组 用 于 图 的 输入 的 数值 ， 然 后 返回 在 这 些 
输入 值 处 梯度 的 一 组 数值 。 我 们 将 这 种 方法 称 为 符号 到 数值 的 微分 。 这 种 方法 用 在 
诸如 Torch (Collobert et al/., 2011b) 和 Caffe (Jia, 2013) 之 类 的 库 中 。 

另 一 种 方法 是 采用 计算 图 以 及 添加 一 些 额 外 的 节点 到 计算 图 中 ， 这 些 额 外 的 市 
点 提供 了 我 们 所 需 导 数 的 符号 描述 。 这 是 Theano (Bergstra et au/.，2010b; Bastien 
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算法 6.3 典型 深度 神经 网 络 中 的 前 向 传播 和 代价 函数 的 计算 。 损 失 函 数 亏 ( 包 切 取 
决 于 输出 丸和 目标 y (参考 第 6.2.1.1 节 中 损失 函数 的 示例 )。 为 了 获得 总 代价 7， 损 
失 函 数 可 以 加 上 正则 项 (0)， 其 中 0 包含 所 有 参数 (权重 和 偏 置 )。 算 法 6.4 说 明了 
如 何 计 算 .j 关于 参数 友和 也 的 梯度 。 为 简单 起 见 ， 该 演示 仅 使 用 单个 输入 样本 z。 
实际 应 用 应 该 使 用 小 批量 。 请 参考 第 6.5.7 节 以 获得 更 加 真实 的 演示 。 
Require: 网 络 深 度 ，/ 
Require: 页 人 ,ie {1, ,由 ， 模 型 的 权重 矩阵 
Require: bi e {1.., 几 ， 模 型 的 偏 置 参 数 
Require: z， 程 序 的 输入 
Require: y， 目 标 输出 
1 一 zz 
for 一 1,...,/ do 
aa 二 BO 十 三)NE 一 D) 
pi) = (am) 
end for 
1 二 G) 
了 了 三世 ( 包 切 十 AQ(O) 





























et al., 2012b) 和 TensorFlow (Abadqi et ol., 2015) 所 采用 的 方法 。 图 6.10 给 出 了 该 方 
法 如 何 工作 的 一 个 例子 。 这 种 方法 的 主要 优点 是 导数 可 以 使 用 与 原始 表达 式 相同 的 
语言 来 描述 。 因 为 导数 只 是 另外 一 张 计算 图 ， 我 们 可 以 再 次 运行 反 向 传播 ， 对 导数 
再 进行 求 导 就 能 得 到 更 高 阶 的 导数 。 高 阶 导数 的 计算 在 第 6.5.10 节 中 描述 。 

我 们 将 使 用 后 一 种 方法 ， 并 且 使 用 构造 导数 的 计算 图 的 方法 来 描述 反 向 传播 算 
法 。 图 的 任意 子 集 之 后 都 可 以 使 用 特定 的 数值 来 求 值 。 这 人 允许 我 们 避免 精确 地 指明 
每 个 操作 应 该 在 何 时 计算 。 相 反 ， 通 用 的 图 计算 引擎 只 要 当 一 个 节点 的 父 节 点 的 值 
都 可 用 时 就 可 以 进行 求 值 。 

基于 符号 到 符号 的 方法 的 描述 包含 了 符号 到 数值 的 方法 。 符 号 到 数值 的 方法 可 
以 理解 为 执行 了 与 符号 到 符号 的 方法 中 构建 图 的 过 程 中 完全 相同 的 计算 。 关 键 的 区 
别 是 符号 到 数值 的 方法 不 会 显示 出 计算 图 。 
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算法 6.4 深度 神经 网 络 中 算法 6.3 的 反 向 计算 ， 它 不 止 使 用 了 输入 z 和 目标 ye。 该 
计算 对 于 每 一 层 大 都 产生 了 对 激活 al 的 梯度 ， 从 输出 层 开 始 向 后 计算 一 直到 第 一 
个 隐藏 层 。 这 些 梯度 可 以 看 作 是 对 每 层 的 输出 应 如 何 调整 以 减 小 误差 的 指导 ， 根 据 


这 些 梯度 可 以 获得 对 每 层 参 数 的 梯度 。 





权重 和 仿 置 上 的 梯度 可 以 立即 用 作 随 机 梯度 











更 新 的 一 部 分 〈 梯度 算出 后 即 可 执行 更 新 )， 或 者 与 其 他 基于 梯度 的 优化 方法 一 起 使 





用 。 








在 前 向 计算 完成 后 ， 计 算 项 层 的 梯度 : 


9 全 Vi 二 VD( 亿 切 

for 三 /一 1 ..,1do 
将 关于 层 和 输出 的 梯度 转换 为 非 线 必 
逐 元 素 地 相 乘 ): 
9g 人 VanJ 一 9Oj 万 (ao) 





激活 输入 前 的 梯度 〈 如 果 了 是 逐 元 素 的 ， 则 


计算 关于 权重 和 偏 置 的 梯度 〈 如 果 需 要 的 话 ， 还 要 包括 正则 项 ): 














Viawvy = 王 9 十 AVamOl(O) 


VwoJ=gjperDr+TAVwoQ(Ob) 
关于 下 一 更 低层 的 隐藏 层 传播 梯度 : 





9 二 Vie-Dv 一 TH 9 


end for 
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图 6.10: 使 用 符号 到 符号 的 方法 计算 导数 的 示例 。 在 这 种 方法 中 , 反 向 传播 算法 不 需要 访问 任何 实 
际 的 特定 数值 。 相 反 ， 它 将 节点 添加 到 计算 图 中 来 描述 如 何 计算 这 些 导 数 。 通 用 图 形 求 值 引 敬 可 
以 在 随后 计算 任何 特定 数值 的 导数 。( 左 ) 在 这 个 例子 中 ,我 们 从 表示 > = jj))) 的 图 开始 。 
( 右 ) 我 们 运行 反 向 传播 算法 ， 指 导 它 构造 表达 式 到 对 应 的 图 。 在 这 个 例子 中 ， 我 们 不 解释 反 向 
传播 算法 如 何 工作 。 我 们 的 目的 只 是 说 明 想 要 的 结果 是 什么 : 符号 描述 的 导数 的 计算 图 。 



















































































6.5.6 “一般 化 的 反 向 传播 


反 向 传播 算法 非常 简单 。 为 了 计算 某 个 标量 > 关于 图 中 它 的 一 个 祖先 z 的 梯 
度 ， 我 们 首先 观察 到 它 关 于 > 的 梯度 由 至 = 1 给 出 。 然 后 ， 我 们 可 以 计算 对 图 中 > 
的 每 个 父 节 点 的 梯度 ， 通 过 现 有 的 梯度 乘 以 产生 > 的 操作 的 Jacobian。 我 们 继续 乘 
以 Jacobian， 以 这 种 方式 向 后 穿 过 图 ， 直 到 我 们 到 达 z。 对 于 从 > 出 发 可 以 经 过 两 
个 或 更 多 路 径 向 后 行进 而 到 达 的 任意 节点 ， 我 们 简单 地 对 该 节点 来 自 不 同 路 径 上 的 
梯度 进行 求 和 。 

更 正式 地 ， 图 9 中 的 每 个 节点 对 应 着 一 个 变量 。 为 了 实现 最 大 的 一 般 化 ,我 们 
将 这 个 变量 描述 为 一 个 张 量 V。 张 量 通常 可 以 具有 任意 维度 ， 并 且 包 含 标量 、 向 量 
和 移 阵 。 

我 们 假设 每 个 变量 V 与 下 列子 程序 相关 联 : 














eget_operation(V): 它 返 回 用 于 计算 V 的 操作 ， 代 表 了 在 计算 图 中 流入 V 
的 边 。 例 如 ， 可 能 有 一 个 Python 或 者 C++ 的 类 表示 和 矩阵 乘法 操作 ， 以 
及 get_operation 函数 。 假设 我 们 的 一 个 变量 是 由 矩阵 乘法 产生 的 ，C = 4 厂 。 
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那么 ，get_operation(V) 返回 一 个 指向 相应 C++ 类 的 实例 的 指针 。 


e。 get_consumers(V;,9): 它 返回 一 组 变量 ， 是 计算 图 9 中 V 的 子 节 点 。 








e get_inputs(V,9): 它 返回 一 组 变量 ， 是 计算 图 9 中 V 的 父 节 点 。 


每 个 操作 op 也 与 bprop 操作 相关 联 。 该 bprop 操作 可 以 计算 如 式 (6.47) 所 描 
述 的 Jacobian 向 量 积 。 这 是 反 向 传播 算法 能 够 实现 很 大 通用 性 的 原因 。 每 个 操作 负 
责 了 解 如 何 通过 它 参 与 的 图 中 的 边 来 反 向 传播 。 例 如 ， 我 们 可 以 使 用 珑 阵 乘法 操作 
来 产生 变量 C = 4 娓 。 假 设 标量 > 关于 C 的 梯度 是 C。 和 阵 乘法 操作 负责 定义 两 
个 反 向 传播 规则 ， 每 个 规则 对 应 于 一 个 输入 变量 。 如 果 我 们 调用 bprop 方法 来 请 求 
关于 4 的 梯度 ， 那么 在 给 定 输出 的 梯度 为 G 的 情况 下 ， 抑 阵 乘法 操作 的 bprop 方 
法 必须 说 明 关 于 4 的 梯度 是 GB  。 类 似 的 ， 如 果 我 们 调用 bprop 方法 来 请 求 关 
于 互 的 梯度 ， 那 么 矩阵 操作 负责 实现 bprop 方法 并 指定 希望 的 梯度 是 4 G。 反 向 
传播 算法 本 身 并 不 需要 知道 任何 微分 法 则 。 它 只 需要 使 用 正确 的 参数 调用 每 个 操作 
的 bprop 方法 即 可 。 正 式 地 ， op.bprop (inputs,X,G) 必须 返回 














> (Vxop.f(inputs)i)Gi， (6.54) 
这 只 是 如 式 (6.47) 所 表达 的 链 式 法 则 的 实现 。 这 里 ，inputs 是 提供 给 操作 的 一 组 输 
入，op.f 是 操作 实现 的 数学 函数 ，X 是 输入 ， 我 们 想 要 计算 关于 它 的 梯度 ，G 是 操 
作对 于 输出 的 梯度 。 
op .bprop 方法 应 该 总 是 假装 它 的 所 有 输入 彼此 不 同 ， 即 使 它们 不 是 。 例 如 ， 如 
果 mul 操作 传递 两 个 z 来 计算 z2，op.bprop 方法 应 该 仍然 返回 z 作为 对 于 两 个 输 
入 的 导数 。 反 向 传播 算法 后 面 会 将 这 些 变量 加 起 来 获得 2， 这 是 zx 上 总 的 正确 的 导 
数 。 
反 向 传播 算法 的 软件 实现 通常 提供 操作 和 其 bprop 方法 ， 所 以 深度 学 习 软 件 库 
的 用 户 能 够 对 使 用 诸如 和 矩阵 乘法 、 指 数 运 算 、 对 数 运算 等 等 常用 操作 构建 的 图 进行 
反 向 传播 。 构 建 反 向 传播 新 实现 的 软件 工程 师 或 者 需要 向 现 有 库 添 加 自己 的 操作 的 
高 级 用 户 通 党 必须 手动 为 新 操作 推导 op .bprop 方法 。 
反 疝 传播 算法 的 正式 描述 参考 算法 6.5 。 
在 第 6.5.2 节 中 ， 我 们 使 用 反 向 传播 作为 一 种 策略 来 避免 多 次 计算 链 式 法 则 中 的 
相同 子 表 达 式 。 由 于 这 些 重 复 子 表达 式 的 存在 ， 简 单 的 算法 可 能 具有 指数 运行 时 间 。 
现在 我 们 已 经 详细 说 明了 反 轴 传播 算法 ， 我 们 可 以 去 理解 它 的 计算 成 本 。 如 果 我 们 
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算法 6.5 反 向 传播 算法 最 外 围 的 骨架 。 这 部 分 做 简单 的 设置 和 清理 工作 。 大 多 数 重 
要 的 工作 发 生 在 算法 6.6 的 子 程序 build_grad 中 。 
Require: T， 和 需要 计算 梯度 的 目标 变量 
Require: 9， 计 算 图 
Require: >， 要 微分 的 变量 

令 9 为 9 剪 枝 后 的 计算 图 ， 其 中 仅 包 括 > 的 祖先 以 及 T 中 节点 的 后 代 。 

初始 化 grad_table， 它 是 关联 张 量 和 对 应 导数 的 数据 结构 。 

grad_tablelz| 二] 

for VinTdo 

build_grad(V,9,9' ,grad_ table) 








end for 


Return grad_table restricted to 工 





假设 每 个 操作 的 执行 都 有 大 致 相同 的 开销 ， 那 么 我 们 可 以 依据 执行 操作 的 数量 来 分 
析 计 算 成 本 。 注 意 这 里 我 们 将 一 个 操作 记 为 计算 图 的 基本 单位 ， 它 实际 可 能 包含 许 
多 算术 运算 (例如 ， 我们 可 能 将 矩阵 乘法 视 为 单个 操作 )。 在 具有 m 个 节点 的 图 中 计 
算 梯度 ， 将 永远 不 会 执行 超过 O(n2) 个 操作 ， 或 者 存储 超过 O(n2) 个 操作 的 输出 。 
这 里 我 们 是 对 计算 图 中 的 操作 进行 计数 ， 而 不 是 由 底层 硬件 执行 的 单独 操作 ， 所 以 
重要 的 是 要 记 住 每 个 操作 的 运行 时 间 可 能 是 高 度 可 变 的 。 例 如 ， 两 个 矩阵 相 乘 可 能 
对 应 着 图 中 的 一 个 单独 的 操作 ， 但 这 两 个 矩阵 可 能 每 个 都 包含 数 百 万 个 元 素 。 我 们 
可 以 看 到 ， 计 算 梯 度 至 多 需要 O("2) 的 操作 ， 因 为 在 最 坏 的 情况 下 ， 前 向 传播 的 步 
又 将 在 原始 岁 的 全 部 ” 个 节点 上 运行 (取决 于 我 们 想 要 计算 的 值 ， 我 们 可 能 不 需要 
执行 整个 图 )。 反 回 传 播 算法 在 原始 图 的 每 条 边 添加 一 个 Jacobian 回 量 积 ， 可 以 用 
Of(1) 个 节点 来 表达 。 因 为 计算 图 是 有 向 无 环 网 ， 它 至 多 有 O(n2) 条 边 。 对 于 实践 中 
常用 图 的 类 型 ， 情 况 会 更 好 。 大 多 数 神 经 网 络 的 代价 函数 大 致 是 链 式 结构 的 ， 使 得 
反 回 传播 只 有 O(p) 的 成 本 。 这 远 远 胜 过 简单 的 方法 ， 简 单方 法 可 能 需要 在 指数 级 
的 节点 上 运算 。 这 种 潜在 的 指数 级 代价 可 以 通过 非 递归 地 扩展 和 重 写 递 归 链 式 法 则 
( 式 (6.49) ) 来 看 出 : 
人) 上 Cn) 
让 =- 汪 (6.55) 


path(uw(r1) ,uCr2) .acCTt) )， 大 一 2 
from T1 一 7 to Tt 一 见 


由 于 节点 了 到 节点 兄 的 路 径 数目 可 以 关于 这 些 路 径 的 长 度 上 指数 地 增长 ， 所 以 上 述 
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算法 6.6 反 向 传播 算法 的 内 循环 子 程序 build_grad(V,9,9'grad_table)， 由 算 
法 6.5 中 定义 的 反 向 传播 算法 调用 。 
Require: V， 应 该 被 加 到 9 和 grad_table 的 变量 。 
Require: 9， 要 修改 的 图 。 
Require: 9'， 根 据 参 与 梯度 的 节点 9 的 受 限 图 。 
Require: grad_table， 将 节点 映射 到 对 应 梯度 的 数据 结构 。 

让 Vis in grad_table then 

Return grad_table[V] 
end 证 
1 《1 





for C in get_consumers(V,9') do 
op 全 get_ operation(C) 
D 和 build_grad(C,9,9' ,grad_table) 
G04) 一 op.bprop(get_inputs(C,9 小 V,D) 
《47 十 工 

end for 

G 一 和 ,GO 

grad_tablelV| = G 

插入 G 和 将 其 生成 到 9 中 的 操作 

Return G 











求 和 符号 中 的 项 数 (这些 路 径 的 数目 )， 可 能 以 前 向 传播 图 的 深度 的 指数 级 增长 。 会 
产生 如 此 大 的 成 本 是 因为 对 于 妈 攻 ， 相 同 的 计算 会 重复 进行 很 多 次 。 为 了 避免 这 种 
重新 计算 ， 我 们 可 以 将 反 向 传播 看 作 一 种 表 填 充 算法 ， 利 用 存储 的 中 间 结果 2 来 
对 表 进 行 填充 。 图 中 的 每 个 节点 对 应 着 表 中 的 一 个 位 置 ， 这 个 位 置 存 储 对 该 节点 的 
梯度 。 通 过 顺序 填充 这 些 表 的 条 目 ， 反 向 传播 算法 避免 了 重复 计算 许多 公共 子 表达 
式 。 这 种 表 填 充 策 略 有 时 被 称 为 动态 规划 ( dynamic programming )。 








6.5.7 “实例 : 用 于 MLP 训练 的 反 向 传播 


作为 一 个 例子 ， 我 们 利用 反 上 向 传播 算法 来 训练 多 层 感知 机 。 
这 里 ， 我 们 考虑 一 个 具有 单个 隐藏 层 的 非常 简单 的 多 层 感 知 机 。 为 了 训练 这 个 
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模型 ， 我 们 将 使 用 小 批量 随机 梯度 下 降 算 法 。 反 向 传播 算法 用 于 计算 单个 小 批量 上 
的 代价 的 梯度 。 有 具体 来 说 , 我 们 使 用 训练 集 上 的 一 小 批量 实例 , 将 其 规范 化 为 一 个 设 
计 抢 阵 于 以 及 相关 联 的 类 标签 向 量 y。 网 络 计算 隐藏 特征 层 如 = max{0, 和 TD}。 
为 了 简化 表示 ， 我 们 在 这 个 模型 中 不 使 用 偏 置 。 假 设 我 们 的 图 语言 包含 relu 操作 ， 
该 操作 可 以 对 max{0, 2 表达 式 的 每 个 元 素 分 别 进行 计算 。 类 的 非 归 一 化 对 数 概率 
的 预测 将 随后 由 瑟 WG2) 给 出 。 假 设 我 们 的 图 语言 包含 cross_entropy 操作 ， 用 以 
计算 目标 y 和 由 这 些 未 归 一 化 对 数 概率 定义 的 概率 分 布 间 的 交叉 箭 。 所 得 到 的 交 又 
箭 定义 了 代价 函数 .Ag。 最 小 化 这 个 交叉 业 将 执行 对 分 类 器 的 最 大 似 然 估 计 。 然 而 ， 
为 了 使 得 这 个 例子 更 加 真实 ， 我 们 也 包含 一 个 正则 项 。 总 的 代价 函数 为 


J = Jure 十 》 ( (本 放 于 (3 (6.50) 
了 

















2 


包含 了 交叉 彤 和 系数 为 和 的 权重 衰减 项 。 它 的 计算 图 在 图 6.11 中 给 出 。 














图 6.11: 用 于 计算 代价 函数 的 计算 图 ， 这 个 代价 函数 是 使 用 交叉 灶 损 失 以 及 权重 衰减 训练 我 们 的 
单 层 MLP 示例 所 产生 的 。 











这 个 示例 的 梯度 计算 图 实在 太 大 ， 以 致 绘制 或 者 阅读 都 将 是 乏味 的 。 这 显示 出 
了 反 向 传播 算法 的 优点 之 一 ， 即 它 可 以 自动 生成 梯度 ， 而 这 种 计算 对 于 软件 工程 师 
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来 说 需要 进行 直观 但 元 长 的 手动 推导 。 

我 们 可 以 通过 观察 图 6.11 中 的 正 向 传播 图 来 粗略 地 描述 反 向 传播 算法 的 行为 。 
为 了 训练 ,我们 和 希望 计算 Vwm.y 和 YaJ。 有 两 种 不 同 的 路 径 从 .7 后 退 到 权重 : 
一 条 通过 交叉 箭 代价 ， 另 一 条 通过 权重 衰减 代价 。 权 重 衰减 代价 相对 简单 ， 它 总 是 
对 人 @9 上 的 梯度 贡献 2 。 

另 一 条 通过 交叉 业 代 价 的 路 径 稍 微 复 杂 一 些 。 令 G 是 由 cross_entropy 操作 
提供 的 对 未 归 一 化 对 数 概率 VC2) 的 梯度 。 反 向 传播 算法 现在 需要 探索 两 个 不 同 的 分 
支 。 在 较 短 的 分 支 上 , 它 使 用 对 矩 阵 乘 法 的 第 二 个 变量 的 反 向 传播 规则 , 将 五 " G 加 
到 人 三 6) 的 梯度 上 。 另 一 条 更 长 些 的 路 径 沿 着 网 络 逐 步 下 降 。 首 先 ， 反 向 传播 算法 使 
用 对 称 阵 乘法 的 第 一 个 变量 的 反 向 传播 规则 ， 计 算 Vary = GT2) 7  。 接 下 来 ，relu 
操作 使 用 其 反 向 传播 规则 对 先前 梯度 的 部 分 位 置 清 去， 这 些 位 置 对 应 着 DG) 中 所 有 
小 于 0 的 元 素 。 记 上 述 结果 为 G'。 反 向 传播 算法 的 最 后 一 步 是 使 用 对 matmul 操作 
的 第 二 个 变量 的 反 向 传播 规则 ， 将 瑟 " G' 加 到 人 0) 的 梯度 上 。 

在 计算 了 这 些 梯 度 以 后 ， 梯 度 下 降 算 法 或 者 其 他 优化 算法 所 要 做 的 就 是 使 用 这 
些 梯度 来 更 新 参数 。 

对 于 MLP， 计 算 成 本 主要 来 源 于 矩阵 乘法 。 在 前 向 传播 阶段 ， 我 们 乘 以 每 个 权 
重 和 矩阵 ， 得 到 了 O(w) 数量 的 乘 -加 ， 其 中 w 是 权重 的 数量 。 在 反 向 传播 阶段 ， 我 们 
乘 以 每 个 权重 矩阵 的 转 置 ， 这 具有 相同 的 计算 成 本 。 算 法 主要 的 存储 成 本 是 我 们 需 
要 将 输入 存储 到 隐藏 层 的 非 线 性 中 去 。 这 些 值 从 被 计算 时 开始 存储 ， 直 到 反 回 过 程 
回 到 了 同一 点 。 因 此 存储 成 本 是 O(mrz)， 其 中 和 mn 是 小 批量 中 样本 的 数目 ，mzn 是 隐 
藏 单元 的 数量 。 


























6.5.8 ”复杂 化 


我 们 这 里 描述 的 反 向 传播 算法 要 比 实践 中 实际 使 用 的 实现 要 简单 。 

正如 前 面 提 到 的 ， 我 们 将 操作 的 定义 限制 为 返回 单个 张 量 的 函数 。 大 多 数 软件 
实现 需要 支持 可 以 返回 多 个 张 量 的 操作 。 例 如 ， 如 果 我 们 希望 计算 张 量 中 的 最 大 值 
和 该 值 的 索引 ， 则 最 好 在 单 次 运算 中 计算 两 者 ， 因 此 将 该 过 程 实现 为 具有 两 个 输出 
的 操作 效率 更 高 。 

我 们 还 没有 描述 如 何 控制 反 向 传播 的 内 存 消 耗 。 反 上 向 传播 经 常 涉及 将 许多 张 量 
加 在 一 起 。 在 朴素 方法 中 ， 将 分 别 计 算 这 些 张 量 中 的 每 一 个 ， 然 后 在 第 二 步 中 对 所 
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有 这 些 张 量 求 和 。 朴 素 方法 具有 过 高 的 存储 瓶 须 ， 可 以 通过 保持 一 个 缓冲 名 ， 并 且 
在 计算 时 将 每 个 值 加 到 该 缓冲 器 中 来 避免 该 瓶颈 。 

反 向 传播 的 现实 实现 还 需要 处 理 各 种 数据 类 型 ， 例 如 32 位 序 点 数 、64 位 浮 点 
数 和 整 型 。 处 理 这 些 类 型 的 策略 需要 特别 的 设计 考虑 。 

一 些 操作 具有 未 定义 的 梯度 ， 并 且 重 要 的 是 跟踪 这 些 情 况 并 且 确 定 用 户 请 求 的 
梯度 是 否 是 未 定义 的 。 

各 种 其 他 技术 的 特性 使 现实 世界 的 微分 更 加 复杂 。 这 些 技术 性 并 不 是 不 可 和 逾越 
的 ， 本 章 已 经 描述 了 计算 微分 所 需 的 关键 知识 工具 ， 但 重要 的 是 要 知道 还 有 许多 的 
精妙 之 处 存在 。 











6.5.9 深度 学 习 界 以 外 的 微分 


深度 学 习 界 在 某 种 程度 上 已 经 与 更 广泛 的 计算 机 科学 界 隔 离开 来 ， 并 且 在 很 大 
程度 上 发 展 了 自己 关于 如 何 进 行 微分 的 文化 态度 。 更 一 般 地 ， 自 动 微分 (automatic 
differentiation ) 领域 关心 如 何以 算法 方式 计算 导数 。 这 里 描述 的 反 向 传播 算法 只 是 
自动 微分 的 一 种 方法 。 它 是 一 种 称 为 反 向 模式 累加 (reverse mode accumulation ) 的 
更 广泛 类 型 的 技术 的 特殊 情况 。 其 他 方法 以 不 同 的 顺序 来 计算 链 式 法 则 的 子 表达 式 。 
一 般 来 说 ， 确 定 一 种 计算 的 顺序 使 得 计算 开销 最 小 ， 是 困难 的 问题 。 找 到 计算 梯度 
的 最 优 操作 序列 是 NP 完全 问题 (Naumann, 2008)， 在 这 种 意义 上 ， 它 可 能 需要 将 
代数 表达 式 简 化 为 它们 最 廉价 的 形式 。 

例如 ， 假 设 我 们 有 变量 r,pa .… ,pn 表示 概率 ， 以 及 变量 2 22,.… ,2 表示 未 
归 一 化 的 对 数 概 率 。 假 设 我 们 定义 























exp( 划 ) 

di 一 exp(z)， 

其 中 我 们 通过 指数 化 、 求 和 与 除法 运算 构建 softmax 函数 ， 并 构造 交叉 焙 损 失 函 

数 J = - 半 ,pilogwi。 人 类 数学 家 可 以 观察 到 J 对 六 的 导数 有 一 个 非常 简单 的 形 

式 : 4 一 疡 反 向 传播 算法 不 能 够 以 这 种 方式 来 简化 梯度 ， 而 是 会 通过 原始 图 中 的 所 

有 对 数 和 指数 操作 显 式 地 传播 梯度 。 一 些 软件 库 如 Theano (Bergstra et al.，2010b; 

Bastien et olL., 2012b) 能 够 执行 某 些 种 类 的 代数 替换 来 改进 由 纯 反 向 传播 算法 提出 的 
图 。 

当前 向 图 9 具有 单个 输出 节点 ， 并 且 每 个 偏 导数 2 都 可 以 用 恒定 的 计算 量 

来 计算 时 ， 反 向 传播 保证 梯度 计算 的 计算 数目 和 前 向 计算 的 计算 数目 是 同一 个 量 级 : 


(6.57) 
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这 可 以 在 算法 6.2 中 看 出 ， 因 为 每 个 局 部 偏 导数 &'; 以 及 递归 链 式 公式 ( 式 (6.49) ) 
中 相关 的 乘 和 加 都 只 需 计 算 一 次 。 因 此 , 总 的 计算 量 是 O(#edges)。 然 而 ， 可 能 通过 
对 反 向 传播 算法 构建 的 计算 图 进行 简化 来 减少 这 些 计 算 量 ， 并 且 这 是 NP 完全 问题 。 
诸如 Theano 和 TensorFlow 的 实现 使 用 基于 匹配 已 知 简化 模式 的 试探 法 ， 以 便 重 复 
地 符 试 去 简化 图 。 我 们 定义 反 辐 传播 仪 用 于 计算 标量 输出 的 梯度 ， 但 是 反 向 传播 可 
以 扩展 到 计算 Jacobian 矩阵 (该 Jacobian 和 矩阵 或 者 来 源 于 图 中 的 有 个 不 同 标 量 节 
点 ， 或 者 来 源 于 包含 大 个 值 的 张 量 值 节点 )。 朴素 的 实现 可 能 需要 8 倍 的 计算 : 对 于 
原始 前 向 图 中 的 每 个 内 部 标量 节点 ， 朴 素 的 实现 计算 上 个 梯度 而 不 是 单个 梯度 。 当 
图 的 输出 数目 大 于 输入 的 数目 时 ， 有 时 更 偏向 于 使 用 另外 一 种 形式 的 自动 微分 ， 称 
为 前 向 模式 累加 (forward mode accumulation )。 前 向 模式 计算 已 经 被 提出 用 于 循 
环 神经 网 络 梯度 的 实时 计算 ， 例 如 (Williams and Zipser, 1989)。 这 也 避免 了 存储 整 
个 图 的 值 和 梯度 的 需要 ， 是 计算 效率 和 内 存 使 用 的 折 中 。 前 向 模式 和 后 向 模式 的 关 
系 类 似 于 左 乘 和 右 乘 一 系列 抢 阵 之 间 的 关系 ， 例 如 



































4 也 CD， (6.58) 





其 中 的 矩阵 可 以 认为 是 Jacobian 矩阵。 例如 ， 如 果 九 是 列 向 量 ， 而 4 有 很 多 行 ， 
那么 这 对 应 于 一 幅 具 有 单个 输出 和 多 个 输入 的 图 , 并 且 从 最 后 开始 乘 ， 反 回 进 行 ， 只 
需要 和 矩阵 -向 量 的 乘积 。 这 对 应 着 反 向 模式 。 相 反 ， 从 左边 开始 乘 将 涉及 一 系列 的 矩 
阵 - 和 矩阵 乘积 ， 这 使 得 总 的 计算 变 得 更 加 昂贵 。 然 而 ， 如 果 4 的 行 数 小 于 万 的 列 数 ， 
则 从 左 到 右 乘 更 为 便宜 ， 这 对 应 着 前 向 模式 。 

在 机 器 学 习 以 外 的 许多 社区 中 ， 更 常见 的 是 使 用 传统 的 编程 语言 来 直接 实现 微 
分 软件 ， 例 如 用 Python 或 者 C 来 编程 ， 并 且 自 动 生成 使 用 这 些 语言 编写 的 不 同 函 
数 的 程序 。 在 深度 学 习 界 中 ， 计 算 图 通常 使 用 由 专用 库 创建 的 明确 的 数据 结构 表示 。 
专用 方法 的 缺点 是 需要 库 开 发 人 员 为 每 个 操作 定义 bprop 方法 ， 并 且 限 制 了 库 的 用 
户 仅 使 用 定义 好 的 那些 操作 。 然 而 ， 专 用 方法 也 人 允许 定制 每 个 操作 的 反 向 传播 规则 ， 
允许 开发 者 以 非 显 而 易 见 的 方式 提高 速度 或 稳定 性 ， 对 于 这 种 方式 自动 的 过 程 可 能 
不 能 复制 。 

因此 ， 反 回 传 播 不 是 计算 梯度 的 唯一 方式 或 最 佳 方式 ， 但 它 是 一 个 非常 实用 的 
方法 ， 继 续 为 深度 学 习 社 区 服务 。 在 未 来 ， 深 度 网 络 的 微分 技术 可 能 会 提高 ， 因 为 
深度 学 习 的 从 业者 更 加 懂得 了 更 广泛 的 自动 微分 领域 的 进步 。 
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6.5.10 “高 阶 微分 


一 些 软件 框架 支持 使 用 高 阶 导 数 。 在 深度 学 习 软 件 框架 中 ， 这 至 少 包 括 Theano 
和 TensorFlow。 这 些 库 使 用 一 种 数据 结构 来 描述 要 被 微分 的 原始 函数 ， 它 们 使 用 相 
同类 型 的 数据 结构 来 描述 这 个 函数 的 导数 表达 式 。 这 意味 着 符号 微分 机 制 可 以 应 用 
于 导数 (从 而 产生 高 阶 导 数 )。 

在 深度 学 习 的 相关 领域 ， 很 少 会 计算 标量 函数 的 单个 二 阶 导数 。 相 反 ， 我们 通 
常 对 Hessian 和 矩阵 的 性 质 比 较 感 兴趣 。 如 果 我 们 有 函数 上 : R" 一 及 ， 那 么 Hessian 
和 抢 阵 的 大 小 是 ” xm。 在 典型 的 次 度 学 习 应 用 中 , 7 将 是 模型 的 参数 数量 ， 可 能 很 容 
易 达 到 数 十 亿 。 因 此 ， 完 整 的 Hessian 和 矩阵 甚至 不 能 表示 。 

典型 的 深度 学 习 方 法 是 使 用 Krylov 方法 (Krylov method )， 而 不 是 显 式 地 计 
算 Hessian 和 矩阵。Krylory 方法 是 用 于 执行 各 种 操作 的 一 组 迭代 技术 ， 这 些 操作 包括 
像 近似 求解 矩阵 的 逆 、 或 者 近似 矩阵 的 特征 值 或 特征 向 量 等 ， 而 不 使 用 抢 阵 -向 量 乘 
法 以 外 的 任何 操作 。 

为 了 在 Hesssian 和 阵 上 使 用 Krylov 方法 ,我 们 只 需要 能 够 计算 Hessian 和 矩阵 
五 和 一 个 任意 向 量 v 间 的 乘积 即 可 。 实 现 这 一 目标 的 一 种 直观 方法 (Christianson， 
1992) 是 











Euo=Ve[(Vej(z)) o. (6.59) 

该 表达 式 中 两 个 梯度 的 计算 都 可 以 由 适当 的 软件 库 自 动 完成 。 注 意 ， 外 部 梯度 表达 
式 是 内 部 梯度 表达 式 的 函数 的 梯度 。 

如 果 v 本 身 是 由 计算 图 产生 的 一 个 向 量 ， 那 么 重要 的 是 指定 自动 微分 软件 不 要 
对 产生 v 的 图 进行 微分 。 

虽然 计算 Hessian 通常 是 不 可 取 的 ， 但 是 可 以 使 用 Hessian 向 量 积 。 可 以 对 
所 有 的 ;= 1 .nm 简单 地 计算 Fe ， 其 中 e@) 是 ef = 1 并且 其 他 元 素 都 为 0 
的 one-hot 向 量 。 








6.6 ”历史 小 记 


前 馈 网 络 可 以 被 视 为 一 种 高 效 的 非 线 性 函数 近似 器 ， 它 以 使 用 梯度 下 降 来 最 小 
化 函数 近似 误差 为 基础 。 从 这 个 角度 来 看 ， 现 代 前 饥 网 络 是 一 般 函 数 近似 任务 的 几 
个 世纪 进步 的 结晶。 





194 第 六 章 “深度 前 锁 网 络 





处 于 反 向 传播 算法 底层 的 链 式 法 则 是 17 世纪 发 明 的 (Leibniz, 1676; L?Hapital， 
1696)。 微 积分 和 代数 长 期 以 来 被 用 于 求解 优化 问题 的 封闭 形式 ， 但 梯度 下 降 直 到 19 
世纪 才 作为 优化 问题 的 一 种 迭代 近似 的 求解 方法 被 引入 (Cauchy, 1847)。 

从 20 世纪 40 年 代 开 始 ， 这 些 函 数 近似 技术 被 用 于 导出 诸如 感知 机 的 机 需 学 习 
模型 。 然 而 ， 最 早 的 模型 都 是 基于 线性 模型 。 来 自 包括 Marvin Minsky 的 批评 指出 
了 线性 模型 族 的 几 个 缺陷 , 例如 它 无 法 学 习 XOR 函数 , 这 导致 了 对 整个 神经 网 络 方 
法 的 抵制 。 

学 习 非 线性 函数 需要 多 层 感知 机 的 发 展 和 计算 该 模型 梯度 的 方法 。 基 于 动态 规 
划 的 链 式 法 则 的 高 效应 用 开始 出 现在 20 世纪 60 年 代 和 70 年 代 ， 主 要 用 于 控制 领 
域 (Kelley,， 1960; Bryson and Denham, 1961; Dreyfus,，1962; Bryson and Ho，1969; 
Dreyfus, 1973)， 也 用 于 灵敏 度 分 析 (Linnainmaa, 1976)。Werbos (1981) 提出 应 用 这 
些 技术 来 训练 人 工 神经 网 络 。 这 个 想法 以 不 同 的 方式 被 独立 地 重新 发 现 后 (LeCun， 
1985; Parker, 1985; Rumelhart et al., 1986a) ， 最 终 在 实践 中 得 以 发 展 。 并 行 分 布 式 
处 理 (Parallel Distributed Processing ) 一 书 在 其 中 一 章 提 供 了 第 一 次 成 功 使 用 反 向 
传播 的 一 些 实验 的 结果 (Rumelhart et al., 1986b) ， 这 对 反 向 传播 的 普及 做 出 了 巨大 
的 贡献 ， 并 且 开 启 了 一 个 研究 多 层 神经 网 络 非 常 活跃 的 时 期 。 然 而 ， 该 书 作者 提出 
的 想法 ,特别 是 Rumelhart 和 Hinton 提出 的 想法 远 远 超过 了 反 向 传播 。 它 们 包括 一 
些 关 键 思 想 ， 关 于 可 能 通过 计算 实现 认 知 和 学 习 的 几 个 核心 方面 ， 后 来 被 冠 以 “ 联 
结 主义 ”的 名 称 ， 因 为 它 强 调 了 神经 元 之 间 的 连接 作为 学 习 和 记忆 的 轨迹 的 重要 性 。 
特别 地 ， 这 些 想法 包括 分 布 式 表示 的 概念 (Hinton et al., 1986)。 

在 反 向 传播 的 成 功 之 后 ， 神 经 网 络 人 研究 获得 了 善 及 ， 并 在 20 世纪 90 年 代 初 达 
到 高 峰 。 随 后 ， 其 他 机 器 学 习 技术 变 得 更 受 欢 迎 ， 直 到 2006 年 开始 的 现代 深度 学 习 
复兴 。 

现代 前 馈 网 络 的 核心 思想 自 20 世纪 80 年 代 以 来 没有 发 生 重 大 变化 。 仍 然 使 用 
相同 的 反 向 传播 算法 和 相同 的 梯度 下 降 方法 。1986 年 至 2015 年 神经 网 络 性 能 的 大 
部 分 改进 可 归 因 于 两 个 因素 。 首 先 ， 较 大 的 数据 集 减 少 了 统计 泛 化 对 神经 网 络 的 挑 
战 的 程度 。 第 二 ， 神 经 网 络 由 于 更 强大 的 计算 机 和 更 好 的 软件 基础 设施 已 经 变 得 更 
大 。 然 而 ， 少 量 算法 上 的 变化 也 显著 改善 了 神经 网 络 的 性 能 。 

其 中 一 个 算法 上 的 变化 是 用 交叉 业 族 损失 函数 蔡 代 均 方 误 差 损失 函数 。 均 方 误 
差 在 20 世纪 80 年 代 和 90 年 代 流 行 ， 但 逐渐 被 交叉 业 损 失 替 代 ， 并 且 最 大 似 然 原 
理 的 想法 在 统计 学 界 和 机 器 学 习 界 之 间 广 泛 传 播 。 使 用 交叉 箭 损失 大 大 提高 了 有 具 
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有 sigmoid 和 softmax 输出 的 模型 的 色 
学 习 缓慢 的 问题 。 

另 一 个 显著 改善 前 馈 网 络 性 能 的 算法 上 的 主要 变化 是 使 用 分 段 线性 隐藏 单元 来 
替代 sigmoid 隐藏 单元 ， 例 如 用 整流 线性 单元 。 使 用 max{f0, >} 函数 的 整流 在 早期 
神经 网 络 中 已 经 被 引入 ， 并 且 至 少 可 以 追溯 到 认 知 机 (Cognitron ) 和 神经 认 知 机 
(Neocognitron)(Fukushima，1975,，1980)。 这 些 早 期 的 模型 没有 使 用 整流 线性 单元 ， 
而 是 将 整流 用 于 非 线性 函数 。 尽 管 整流 在 早期 很 普及 , 在 20 世纪 80 年 代 ， 整 流 很 
大 程度 上 被 sigmoid 所 取代 ， 也 许 是 因为 当 神 经 网 络 非常 小 时 ，sigmoid 表现 更 好 。 
到 21 世纪 初 ， 由 于 有 些 迷 信 的 观念 ， 认 为 必须 避免 具有 不 可 导 点 的 激活 函数 ， 所 
以 避免 了 整流 线性 单元 。 这 在 2009 年 开始 发 生 改 变 。Jarrett et ol. (2009b) 观察 到 ， 
在 神经 网 络 结构 设计 的 几 个 不 同 因素 中 “使 用 整流 非 线 性 是 提高 识别 系统 性 能 的 最 
重要 的 唯一 因素 ”。 

对 于 小 的 数据 集 ，Jarrett et al. (2009b) 观察 到 ， 使 用 整流 非 线性 甚至 比 学习 隐 
藏 层 的 权重 值 更 加 重要 。 随 机 的 权重 足以 通过 整流 网 络 传播 有 用 的 信息 ， 人 允许 在 顶 
部 的 分 类 器 层 学 习 如 何 将 不 同 的 特征 向 量 映射 到 类 标识 。 

当 有 更 多 数据 可 用 时 ， 学 习 开 始 提 取 足 够 的 有 用 知识 来 超越 随机 选择 参数 的 性 
能 。Glorot et al1. (2011a) 说 明 ， 在 深度 整流 网 络 中 的 学 习 比 在 激活 函数 具有 曲率 或 
两 侧 他 和 的 深度 网 络 中 的 学 习 更 容易 。 

整流 线性 单元 还 具有 历史 意义 ， 因 为 它们 表明 神经 科学 继续 对 深度 学 习 算 法 的 
发 展 产生 影响 。Glorot et 咏 (2011a) 从 生物 学 考虑 整流 线性 单元 的 导出 。 半 整流 非 
线性 提 在 描述 生物 神经 元 的 这 些 性 质 : (1) 对 于 某 些 输入 ， 生 物 神 经 元 是 完全 不 活 
牙 的 。(2) 对 于 某 些 输入 ， 生 物 神 经 元 的 输出 和 它 的 输入 成 比例 。(3) 大 多 数 时 间 ， 
生物 神经 元 是 在 它们 不 活跃 的 状态 下 进行 操作 〈 即 它们 应 该 具有 稀 朴 激活 ( sparse 
activation ) )。 

当 2006 年 深度 学 习 开 始 现代 复兴 时 ， 前 馈 网 络 仍然 有 不 良 的 声誉 。 从 2006 年 
至 2012 年 ， 人们 普遍 认为 ， 前 馈 网 络 不 会 表现 良好 ,除非 它们 得 到 其 他 模型 的 辅助 ， 
例如 概率 模型 。 现 在 已 经 知道 ， 只 要 具备 适当 的 资源 和 工程 实践 ， 前 馈 网 络 表现 得 
非常 好 。 今 天 ， 前 馈 网 络 中 基于 梯度 的 学 习 被 用 作 发 展 概率 模型 的 工具 ， 例 如 第 二 
十 章 中 描述 的 变 分 自 编码 器 和 生成 式 对 抗 网 络 。 前 馈 网 络 中 基于 梯度 的 学 习 自 2012 
年 以 来 一 直 被 视 为 一 种 强大 的 技术 ， 并 应 用 于 许多 其 他 机 吉 学 习 任 务 ， 而 不 是 被 视 
为 必须 由 其 他 技术 支持 的 不 可 靠 技术 。 在 2006 年 ， 业 内 使 用 无 监督 学 习 来 支持 监督 
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， 而 当 使 用 均 方 误差 损失 时 会 存在 饱和 和 
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学 习 ， 现 在 更 讽刺 的 是 ， 更 常见 的 是 使 用 监督 学 习 来 支持 无 监督 学 习 。 

前 偿 网 络 还 有 许多 未 实现 的 潜力 。 未 来 ， 我 们 期 望 它们 用 于 更 多 的 任务 ， 优 化 
算法 和 模型 设计 的 进步 将 进一步 提高 它们 的 性 能 。 本 章 主要 描述 了 神经 网 络 模型 族 。 
在 接 下 来 的 章节 中 ， 我 们 将 讨论 如 何 使 用 这 些 模型 一 一 如 何 对 它们 进行 正则 化 和 训 
练 。 
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机 融 学 习 中 的 一 个 核心 问题 是 设计 不 仅 在 训练 数据 上 表现 好 ， 并 且 能 在 新 输入 
上 泛 化 好 的 算法 。 在 机 天 学 习 中 ， 许 多 策略 显 式 地 被 设计 来 减少 测试 误差 〈 可 能 会 
以 增 大 训练 误差 为 代价 )。 这 些 策 略 被 统称 为 正则 化 。 我 们 将 在 后 文 看 到 ， 深 度 学 
习 工 作者 可 以 使 用 许多 不 同形 式 的 正则 化 策略 。 事 实 上 ， 开 发 更 有 效 的 正则 化 策略 
已 成 为 本 领域 的 主要 研究 工作 之 一 。 

第 五 章 介 绍 了 泛 化 、 从 拟 合 、 过 拟 合 、 侦 差 、 方 差 和 正则 化 的 基本 概念 。 如 果 你 
不 熟悉 这 些 概念 ， 请 参考 该 章节 再 继续 阅读 本 章 。 

在 本 章 中 ， 我 们 会 更 详细 地 介绍 正则 化 ， 重 点 介绍 深度 模型 (或 组 成 深度 模型 
的 模块 ) 的 正则 化 策略 。 

本 章 中 的 某 些 章节 涉及 机 顺 学 习 中 的 标准 概念 。 如 果 你 已 经 熟悉 了 这 些 概念 ， 
可 以 随意 跳 过 相关 章节 。 然 而 ， 本 章 的 大 多 数 内容 是 关于 这 些 基 本 概念 在 特定 神经 
网 络 中 的 扩展 概念 。 

在 第 5.2.2 节 中 ， 我 们 将 正则 化 定义 为 “对 学 习 算 法 的 修改 一 一 旨 在 减少 泛 化 误 
差 而 不 是 训练 误差 ”。 目 前 有 许多 正则 化 策略 。 有 些 策略 向 机 器 学 习 模 型 添加 限制 参 
数值 的 额外 约束 。 有 些 策略 向 目标 函数 增加 额外 项 来 对 参数 值 进行 软 约 束 。 如 果 我 
们 细心 选择 , 这些 额外 的 约束 和 惩罚 可 以 改善 模型 在 测试 集 上 的 表现 。 有 时 候 , 这 些 
约束 和 惩罚 被 设计 为 编码 特定 类 型 的 先 验 知识 ; 其 他 时 候 ， 这 些 约 束 和 惩罚 被 设计 
为 偏好 简单 模型 ， 以 便 提 高 泛 化 能 力 。 有 时 ， 惩 罚 和 约束 对 于 确定 欠 定 的 问题 是 必 
要 的 。 其 他 形式 的 正则 化 ， 如 被 称 为 集成 的 方法 ， 则 结合 多 个 假说 来 解释 训练 数据 。 

在 深度 学 习 的 背景 下 ， 大 多 数 正 则 化 策略 都 会 对 佑 计 进 行 正则 化 。 佑 计 的 正则 
化 以 偶 差 的 增加 换取 方差 的 减少 。 一 个 有 效 的 正则 化 是 有 利 的 “交易 ”， 也 就 是 能 显 
著 减 少 方差 而 不 过 度 增 加 偏差 。 我 们 在 第 五 音 中 讨论 泛 化 和 过 拟 合 时 ， 主 要 侧重 模 
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型 族 训练 的 3 个 情形 : (1 ) 不 包括 真实 的 数据 生成 过 程 一 “对 应 欠 拟 合 和 含有 偏 
差 的 情况 ，( 2 ) 匹配 真实 数据 生成 过 程 ，( 3 ) 除了 包括 真实 的 数据 生成 过 程 ， 还 包 
括 许多 其 他 可 能 的 生成 过 程 一 方差 (而 不 是 偏差 ) 主导 的 过 拟 合 。 正 则 化 的 目标 
是 使 模型 从 第 三 种 情况 转化 为 第 二 种 情况 。 

在 实践 中 ， 过 于 复杂 的 模型 族 不 一 定 包括 目标 函数 或 真实 数据 生成 过 程 ， 甚 至 
也 不 包括 近似 过 程 。 我 们 几乎 从 未 知晓 真实 数据 的 生成 过 程 ， 所 以 我 们 永远 不 知道 
被 估计 的 模型 族 是 否 包括 生成 过 程 。 然 而 ， 深 度 学 习 算法 的 大 多 数 应 用 都 是 针对 这 
样 的 情况 ， 其 中 真实 数据 的 生成 过 程 几乎 肯定 在 模型 族 之 外 。 深 度 学 习 算法 通常 应 
用 于 极为 复杂 的 领域 ， 如 图 像 、 音 频 序列 和 文本 ， 本 质 上 这 些 领域 的 真实 生成 过 程 
涉及 模拟 整个 宇宙 。 从 某 种 程度 上 说 ， 我 们 总 是 持 方 栅 〈 数据 生成 过 程 ) 而 欲 内 加 
羡 (我 们 的 模型 族 ) 

这 意味 着 控制 模型 的 复杂 度 不 是 找到 合适 规模 的 模型 ( 带 有 正确 的 参数 个 数 ) 
这 样 一 个 简单 的 事情 。 相 反 ， 我 们 可 能 会 发 现 ， 或 者 说 在 实际 的 深度 学 习 场景 中 我 
们 几乎 总 是 会 发 现 ， 最 好 的 拟 合 模型 ( 从 最 小 化 泛 化 误差 的 意义 上 ) 是 一 个 适当 正 
则 化 的 大 型 模型 。 

现在 我 们 回顾 几 种 策略 ， 以 创建 这 些 正则 化 的 大 型 深度 模型 。 
































7.1 “参数 苑 数 惩罚 


正则 化 在 深度 学 习 的 出 现 前 就 已 经 被 使 用 了 数 十 年 。 线 性 模型 ,如 线性 回归 和 逮 
中 回归 可 以 使 用 简单 、 直 接 、 有 效 的 正则 化 策略 。 

许多 正则 化 方法 通过 对 目标 数 7 添加 一 个 参数 范 数 惩罚 2(9)， 限 制 模型 
《如 神经 网 络 、 线 性 回归 或 逻辑 回归 ) 的 学 习 能 力 。 我 们 将 正则 化 后 的 目标 函 数 记 为 
7: 












































J(O0;X WU) =.J00XU) 二 ao0(0)， (7.1) 








其 中 a e [0,co) 是 权衡 范 数 惩罚 项 2 和 标准 目标 机 数 J(X; 9) 相对 贡献 的 超 参 数 。 
将 a 设 为 0 表示 没有 正则 化 。ca 越 大 ， 对 应 正则 化 惩罚 越 大 。 

当 我 们 的 训练 算法 最 小 化 正则 化 后 的 目标 函数 7 时 ， 它 会 降低 原始 目标 j/ 关于 
训练 数据 的 误差 并 同时 减 小 在 某 些 衡量 标准 下 参数 0 (或 参数 子 集 ) 的 规模 。 选 择 
不 同 的 参数 范 数 9 会 侦 好 不 同 的 解 。 在 本 节 中 ,我们 会 讨论 各 种 范 数 惩罚 对 模型 的 
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影响 。 

在 探究 不 同 范 数 的 正则 化 表现 之 前 , 我 们 需要 说 明 一 下 , 在 神经 网 络 中 , 参数 包 
括 每 一 层 仿 射 变换 的 权重 和 侦 置 ， 我 们 通常 只 对 权重 做 惩罚 而 不 对 侦 置 做 正则 惩罚 。 
精确 拟 合 侦 置 所 需 的 数据 通常 比拟 合 权重 少 得 多 。 每 个 权重 会 指定 两 个 变量 如 何 相 
互 作用 。 我 们 需要 在 各 种 条 件 下 观察 这 两 个 变量 才能 良好 地 拟 合 权重 。 而 每 个 俩 置 仅 
控制 一 个 单 变 量 。 这 意味 着 ， 我 们 不 对 其 进行 正则 化 也 不 会 导致 大 大 的 方差 。 另 外 ， 
正则 化 俩 置 参数 可 能 会 导致 明显 的 从 拟 合 。 因 此 ， 我 们 使 用 向 量 w 表示 所 有 应 受 范 
数 惩罚 影响 的 权重 ， 而 向 量 0 表示 所 有 参数 (包括 ww 和 无 需 正 则 化 的 参数 )。 

在 神经 网 络 的 情况 下 ， 有 时 希望 对 网 络 的 每 一 层 使 用 单独 的 惩罚 ， 并 分 配 不 同 
的 a 系数 。 寻 找 合适 的 多 个 超 参 数 的 代价 很 大 ， 因 此 为 了 减少 搜索 空间 ， 我 们 会 在 
所 有 层 使 用 相同 的 权重 衰减 。 
















































































7.1.1 三 参数 正则 化 














在 第 5.2 节 中 我 们 已 经 看 到 过 最 简单 而 又 最 常见 的 参数 范 数 惩罚 ， 即 通常 被 称 
为 权重 衰减 (weight decay ) 的 三 参数 范 数 惩罚 。 这 个 正则 化 策略 通过 向 目标 函 
数 添 加 一 个 正则 项 Q(6) = 于 |aoll:， 使 权重 更 加 接近 原点 !。 在 其 他 学 术 圈 ，Z2 也 被 
称 为 岭 回 归 或 Tikhonov 正则 。 

我 们 可 以 通过 研究 正则 化 后 目标 函数 的 梯度 ， 洞 察 一 些 权重 衰减 的 正则 化 表现 。 
为 了 简单 起 见 ， 我 们 假定 其 中 没有 偏 置 参数 ， 因 此 6 就 是 ww。 这 样 一 个 模型 具有 以 
下 总 的 目标 函数 : 














Ju; 成, 切 一 本 0 十 JUw; 妃 ， 2)， (7.2) 
与 之 对 应 的 梯度 为 


Vaoy(w 吕 人 =aw 十 Voy(o; 夸 切 . (7.3) 


使 用 单 步 梯 度 下 降 更 新 权重 ， 即 执行 以 下 更 新 : 








也 和 也 一 ce(aQw 十 Vol(uw; 已 切 ). (7.4) 











! 更 一 般 地 ， 我 们 可 以 将 参数 正则 化 为 接近 空间 中 的 任意 特定 点 ， 令 人 惊讶 的 是 这 样 也 仍 有 正则 化 效果 ， 但 是 特定 
点 越 接近 真实 值 结果 越 好 。 当 我 们 不 知道 正确 的 值 应 该 是 正 还 是 负 时 ， 零 是 有 意义 的 默认 值 。 由 于 模型 参数 正则 化 为 
零 的 情况 更 为 常见 ， 我 们 将 只 探讨 这 种 特殊 情况 。 
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换 种 写法 就 是 : 
也 全 (1 一 co) 岂 一 eVoT(uw; 马 ) 切 . (7.5) 


我 们 可 以 看 到 , 加 入 权重 衰减 后 会 引起 学 习 规 则 的 修改 , 即 在 每 步 执 行 通常 的 梯度 更 
新 之 前 先 收 缩 权重 向 量 〈 将 权重 向 量 乘 以 一 个 党 数 因子 )。 这 是 单个 步 又 发 生 的 变 
化 。 但 是 ， 在 训练 的 整个 过 程 会 发 生 什 么 呢 ? 

我 们 进一步 简化 分 析 , 令 人 为 未 正则 化 的 目标 数 取得 最 小 训练 误差 时 的 权 
重 向 量 ， 即 巡 = argminw.y(w)， 并 在 wr 的 邻 域 对 目标 函数 做 二 次 近似 。 如 果 目 
标 函 数 确实 是 二 次 的 (如 以 均 方 误差 拟 合 线性 回归 模型 的 情况 )， 则 该 近似 是 完美 的 。 
近似 的 7(68) 如 下 

















78) = Jo (wo- (二 (7.6) 


其 中 瑟 是 了 在 处 计算 的 Hessian 和 抢 阵 (关于 如 。 因 为 好 被 定义 为 最 优 ， 即 梯 
度 消 失 为 0， 所 以 该 二 次 近似 中 没有 一 阶 项 。 同 样 地 ， 因 为 几 e 是 7 的 一 个 最 优点 ， 
我 们 可 以 得 出 五 是 半 正 定 的 结论 。 

当 ,7 取得 最 小 时 ， 其 梯度 








Vuv(uw) = 再 ww 一 由 ) 人 
为 0。 
为 了 研究 权重 衰减 带 来 的 影响 ， 我 们 在 式 (7.7) 中 添加 权重 衰减 的 梯度 。 现 在 我 
们 探讨 最 小 化 正则 化 后 的 .7 我 们 使 用 变量 也 表示 此 时 的 最 优点 : 
a 包 十 再 也 一 过 ) =0 (7.8) 
(再 + a 帮 忆 = 再 or (7.9) 
也 = ( 瓦 二 or (7.10) 


当 a 趋向 于 0 时 ， 正 则 化 的 解 也 会 趋向 巡 。 那 么 当 a 增加 时 会 发 生 什么 呢 ? 
因为 豆 是 实 对 称 的 ， 所 以 我 们 可 以 将 其 分 解 为 一 个 对 角 和 矩阵 A 和 一 组 特征 向 量 的 
标准 正 交 基 Q, 并 且 有 瑟 = QAQ  。 将 其 应 用 于 式 (7.10) ， 可 得 : 

了 =(QAQ +aD-IQAQ 信 (7.1) 
=[Q(A+aDnQ@ QQAQ 达 (7.12) 
= Q(A+oaD-IAQ (7.13) 








71 参数 范 数 惩罚 201 


我 们 可 以 看 到 权重 衰减 的 效果 是 沿 着 由 五 的 特征 向 量 所 定义 的 轴 缩 放 内。 具体 来 
说 ， 我 们 会 根据 冯 因子 缩放 与 五 第 ;个 特征 向 量 对 齐 的 wr 的 分 量 。 (不 妨 查 
看 图 2.3 回顾 这 种 缩放 的 原理 )。 

治 着 互 特 征 值 较 大 的 方向 (如 A; 六 o) 正 则 化 的 影响 较 小 。 而 A; 入 a 的 分 量 将 
会 收缩 到 几乎 为 零 。 这 种 效应 如 图 7.1 所 示 。 








图 7.1: 到 (或 权重 衰减 ) 正则 化 对 最 佳 w 值 的 影响 。 实 线 椭圆 表示 没有 正则 化 目标 的 等 值 线 。 虚 
线 圆 问 表 示 三 正则 化 项 的 等 值 线 。 在 也 点 , 这 两 个 竞争 目标 达到 平衡 。 目 标 函 数 y 的 Hessian 的 
第 一 维特 征 值 很 小 。 当 从 w” 水 平移 动 时 ， 目 标 函 数 不 会 增加 得 太 多 。 因 为 目标 函数 对 这 个 方向 没 
有 强烈 的 偏好 ， 所 以 正则 化 项 对 该 轴 具 有 强烈 的 影响 。 正 则 化 项 将 wai 拉 向 零 。 而 目标 函数 对 沿 着 
第 二 维 远离 wr 的 移动 非常 敏感 。 对 应 的 特征 值 较 大 ， 表 示 高 曲率 。 因 此 ， 权 重 衰减 对 ws 的 位 置 
影响 相对 较 小 。 

























































































只 有 在 显著 减 小 目标 数 方向 上 的 参数 会 保留 得 相对 完好 。 在 无 助 于 目标 函 
数 减 小 的 方向 (对 应 Hessian 和 矩阵 较 小 的 特征 值 ) 上 改变 参数 不 会 显著 增加 梯度 。 这 
种 不 重要 方向 对 应 的 分 量 会 在 训练 过 程 中 因 正 则 化 而 衰减 掉 。 

目前 为 止 ， 我 们 讨论 了 权重 衰减 对 优化 一 个 抽象 通用 的 二 次 代价 函数 的 影响 。 
这 些 影响 具体 是 怎么 和 机 顺 学 习 关联 的 呢 ? 我 们 可 以 研究 线性 回归 ， 它 的 真实 代价 
函数 是 二 次 的 ， 因 此 我 们 可 以 使 用 相同 的 方法 分 析 。 再 次 应 用 分 析 ， 我 们 会 在 这 种 
情况 下 得 到 相同 的 结果 ， 但 这 次 我 们 使 用 训练 数据 的 术语 表述 。 线 性 回归 的 代价 冰 
数 是 平方 误差 之 和 : 














(Xuw 一 切 [ (Xu 一切. (7.14) 
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我 们 添加 到 正则 项 后 ， 目 标 函 数 变 为 


人 au (7.15) 

这 将 善 通 方程 的 解 从 
= (和 XI)-1XT 9 (7.16) 
= (瑟瑟 十 ao 王侯 (7.17) 


式 (7.16) 中 的 矩阵 于" 蕊 与 协 方差 矩阵 土 瑟 "于 成 正比 。 疙 正则 项 将 这 个 矩阵 蔡 换 
为 式 (7.17) 中 的 ( 瑟 " 系 十 a)-! 这 个 新 矩阵 与 原来 的 是 一 样 的， 不 同 的 仅仅 是 在 对 
角 加 了 a。 这 个 矩阵 的 对 角 项 对 应 每 个 输入 特征 的 方差 。 我 们 可 以 看 到 ,二 正则 化 能 
让 学 习 算 法 “感知 ”到 具有 较 高 方差 的 输入 z， 因 此 与 输出 目标 的 协 方差 较 小 (相对 
增加 方差 ) 的 特征 的 权重 将 会 收缩 。 





7.1.2 71 参数 正则 化 














到 权重 衰减 是 权重 衰减 最 常见 的 形式 ， 我 们 还 可 以 使 用 其 他 的 方法 限制 模型 参 
数 的 规模 。 一 个 选择 是 使 用 二 正则 化 。 
形式 地 ， 对 模型 参数 w 的 万 正则 化 被 定义 为 : 


= |wl = 生 loil， (7.18) 





即 各 个 参数 的 绝对 值 之 和 ?。 接 着 我 们 将 讨论 瑟 正 则 化 对 简单 线性 回归 模型 的 影响 ， 
与 分 析 天正 则 化 时 一 样 不 考虑 俩 置 参数 。 我 们 尤其 感 兴趣 的 是 找 出 瑟 和 产 正 则 
化 之 间 的 差异 。 与 到 权重 衰减 类 似 ， 我 们 也 可 以 通过 缩放 惩罚 项 9 的 正 超 参数 a 
来 控制 二 权重 衰减 的 强度 。 因 此 ， 正 则 化 的 目标 函数 7(ao; 忆 , 仿 如 下 所 示 

















J( 由 素 久 =allwoli + yw 互 幼 ， 《7.19) 
对 应 的 梯度 (实际 上 是 次 梯度 ) ; 


Vuvy(o; 忆 , 切 = asign(ao) 十 VoT(u; 束 切 ， (7.20) 





2 如 同 元? 正则 化 ,我们 能 将 参数 正则 化 到 其 他 非 零 值 wo)。 在 这 种 情况 下 ， 克 :正则 化 将 会 引入 不 同 的 项 
9(9) = lw 一 wo = 开 ;ws 一 过 |。 
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其 中 sign(w) 只 是 简单 地 取 ww 各 个 元 素 的 正 负 号 。 

观察 式 (7.20) ， 我 们 立刻 发 现 元 ! 的 正则 化 效果 与 二 大 不 一 样 。 具 体 来 说 ， 我 
们 可 以 看 到 正则 化 对 梯度 的 影响 不 再 是 线性 地 缩放 每 个 wii; 而 是 添加 了 一 项 与 
sign(uw;) 同 号 的 稼 数 。 使 用 这 种 形式 的 梯度 之 后 ， 我 们 不 一 定 能 得 到 .J( 屋 ,Vi tu) 二 
次 近似 的 直接 算术 解 〈 玫 正则 化 时 可 以 )。 

简单 线性 模型 具有 二 次 代价 机 数 ， 我 们 可 以 通过 泰勒 级 数 表示 。 或 者 我 们 可 以 
设想 ， 这 是 台 近 更 复杂 模型 的 代价 冰 数 的 截断 泰勒 级 数 。 在 这 个 设 定 下 ， 梯 度 由 下 
式 给 出 











Vuy(o) = 百 (w 一 )， (7.21) 


同样 ， 互 是 了 在 迪 处 的 Hessian 矩 阵 (关于 内 )。 

由 于 万 惩罚 项 在 完全 一 般 化 的 Hessian 的 情况 下 ， 无 法 得 到 直接 清晰 的 代数 表 
达 式 , 因此 我 们 将 进一步 简化 假设 Hessian 是 对 角 的 , 即 瑟 = diag(L ,有 蕊 同 )， 
其 中 每 个 瓦 ; > 0。 如 果 线 性 回归 问题 中 的 数据 已 被 预 处 理 ( 如 可 以 使 用 PCA )， 去 
除了 输入 特征 之 间 的 相关 性 ， 那么 这 一 假设 成 立 。 

我 们 可 以 将 瑟 : 正 则 化 目标 函数 的 二 次 近似 分 解 成 关于 参数 的 求 和 : 








1 
7(w 瑟 切 = To 成 妇 十 > 5Eai(w 





;一 岂 轴 2 十 sa 2 (7.22) 


如 下 列 形 式 的 解析 解 〈 对 每 一 维 站 ) 可 以 最 小 化 这 个 近似 代价 函数 : 
ui 一 Sign(z7) max el 一 二 (7.23) 


对 每 个 2 考虑 迪 > 0 的 情形 ， 会 有 两 种 可 能 结果 : 





1 录 冬 稚 : 的 情况 。 正 则 化 后 目标 中 的 ws; 最 优 值 是 ws; = 0。 这 是 因为 在 方向 4 
上 JUao; 蕊 切 对 Jo; 成 纺 的 贡献 被 抵消 ， 五 正则 化 项 将 ww; 推 至 0。 


2. 凡 > 旭 - 的 情况 。 人 情况 下 ， 正 则 化 不 会 将 ws 的 最 优 值 推 至 0， 而 仅仅 
在 那个 方向 上 移动 - 的 距离 。 





< 0 的 情况 与 之 类 似 ， 但 是 产 惩罚 项 使 w; 更 接近 0( 增 加 妨 ;) 或 者 为 0。 


相 比 玫 正 则 化 ， 歼 正则 化 会 产生 更 稀 朴 (sparse ) 的 解 。 此 处 稀 琉 性 指 的 是 
最 优 值 中 的 一 些 参数 为 0。 和 产 正 则 化 相 比 ， 瑟 正则 化 的 稀 朴 性 具有 本 质 的 不 同 。 
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式 (7.13) 给 出 了 到 正 则 化 的 解 如。 如 果 我 们 使 用 Hessian 算 阵 五 为 对 角 正 定 符 阵 
的 假设 〈 与 瑟 正 则 化 分 析 时 一 样 )， 重 新 考虑 这 个 等 式 ， 我 们 发 现 祭 = Pt。 
如 果 好 不 是 零 , 那么 奈 也 会 保持 非 零 。 这 表明 三 正则 化 不 会 使 参数 变 得 稀 琉 ， 而 
五 :正则 化 有 可 能 通过 足够 大 的 a 实现 稀 玻 。 

由 瑟 : 正 则 化 导出 的 稀 朴 性 质 已 经 被 广泛 地 用 于 特征 选择 (feature selection ) 机 
制 。 特 征 选择 从 可 用 的 特征 子 集 选 择 出 有 意义 的 特征 ， 化 简 机 器 学 习 问 题 。 若 名 的 
LASSO (Tibshirani，1995) (Least Absolute Shrinkage and Selection Operator ) 模 
型 将 二: 惩罚 和 线性 模型 结合 ， 并 使 用 最 小 二 乘 代 价 函 数 。 姜 : 惩罚 使 部 分 子 集 的 权 
重 为 零 ， 表 明 相 应 的 特征 可 以 被 安全 地 忽略 。 

在 第 5.6.1 节 ， 我 们 看 到 许多 正则 化 策略 可 以 被 解释 为 MAP 贝 叶 斯 推 新 ， 特 别 
是 五 ?正则 化 相当 于 权重 是 高 斯 先 验 的 MAP 贝 叶 斯 推断 。 对 于 万 正则 化 ,用 于 正则 
化 代价 函数 的 惩罚 项 aQ(wo) = a > ;ui| 与 通过 MAP 贝 叶 斯 推断 最 大 化 的 对 数 先 
验 项 是 等 价 的 (weE 恨 "并且 权重 先 验 是 各 向 同性 的 拉 普 拉 斯 分 布 ( 式 (3.26) )): 


工 
logp(uw) 二 > log Laplace(twii 0， = 三 一 Q | +mloga 一 nlog2. (7.24) 


























因为 是 关于 w 最 大 化 进行 学 习 , 我 们 可 以 忽略 log a -log 2 项 ,因为 它们 与 忆 无 关 。 


7.2 ”作为 约束 的 范 数 惩罚 


考虑 经 过 参数 范 数 正 则 化 的 代价 函数 : 
J(0; 成 人 = :JJ 成 人 十 aQ(0). (7.25) 
回顾 第 4.4 节 我 们 可 以 构造 一 个 广义 Lagrange 函数 来 最 小 化 带 约束 的 函数 ， 即 
在 原始 目标 函数 上 添加 一 系列 惩罚 项 。 每 个 惩罚 是 一 个 被 称 为 Karush-Kuhn - 
Tucker (Karush-Kuhn-Tucker ) 乘 子 的 系数 以 及 一 个 表示 约束 是 否 满足 的 函 数 之 
间 的 乘积 。 如 果 我 们 想 约束 Q(6) 小 于 某 个 常数 上， 我 们 可 以 构建 广义 Lagrange 天 
数 











Ca 已 切 王 .JR 人 十 ac(O(9) 一 厂 ). (7.26) 


这 个 约束 问题 的 解 由 下 式 给 出 


印 一 argminmaxC(0,oa). (7.27) 
0 oa 过 0 
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如 第 4.4 节 中 描述 的 ,解决 这 个 问题 我 们 需要 对 2 和 a 都 做 出 调整 。 第 4.5 节 给 
出 了 一 个 带 到 约束 的 线性 回归 实例 。 还 有 许多 不 同 的 优化 方法 ， 有 些 可 能 会 使 用 梯 
度 下 降 而 其 他 可 能 会 使 用 梯度 为 0 的 解析 解 ， 但 在 所 有 过 程 中 a 在 2(8) > 天 时 必 
须 增 加 ,在 (6) < 时 必须 减 小 。 所 有 正 值 的 a 都 残 励 (6) 收缩 。 最 优 值 ar 也 
将 鼓励 2(9) 收缩 ， 但 不 会 强 到 使 得 2(9) 小 于 K。 

为 了 洞察 约束 的 影响 ， 我 们 可 以 固定 o* ， 把 这 个 问题 看 成 只 跟 2 有 关 的 函数 ; 


儿 =argmin Co)=argmin .JU) 十 0(0). (7.28) 
8 8 














这 和 最 小 化 7 的 正则 化 训练 问题 是 完全 一 样 的 。 因 此 ， 我 们 可 以 把 参数 范 数 惩罚 看 
作对 权重 强加 的 约束 。 如 果 Q 是 Z 范 数 ,那么 权重 就 是 被 约束 在 一 个 靖 球 中 。 如 
果 9 是 万 范 数 ,那么 权重 就 是 被 约束 在 一 个 元: 范 数 限制 的 区 域 中 。 通 常 我 们 不 
知道 权重 彭 减 系数 ao 约束 的 区 域 大 小 ， 因 为 a* 的 值 不 直接 告诉 我 们 上 的 值 。 原 则 
上 我 们 可 以 解 得 四 ,但 上 和 oa 之 间 的 关系 取决 于 .7 的 形式 。 虽 然 我 们 不 知道 约束 
区 域 的 确切 大 小 ， 但 我 们 可 以 通过 增加 或 者 减 小 a 来 大 致 扩大 或 收缩 约束 区 域 。 较 
大 的 w， 将 得 到 一 个 较 小 的 约束 区 域 。 较 小 的 w， 将 得 到 一 个 较 大 的 约束 区 域 。 

有 时 候 ， 我 们 希望 使 用 显 式 的 限制 ， 而 不 是 惩罚 。 如 第 4.4 节 所 述 ， 我 们 可 以 修 
改 下 降 算 法 〈 如 随机 梯度 下 降 算法 )， 使 其 先 计 算 .7(6) 的 下 降 步 ， 然 后 将 0 投影 到 
满足 2() < 的 最 近 点 。 如 果 我 们 知道 什么 样 的 & 是 合适 的 ， 而 不 想 花 时 间 寻 找 对 
应 于 此 大 处 的 a 值 ， 这 会 非常 有 用 。 

另 一 个 使 用 显 式 约 束 和 重 投影 而 不 是 使 用 惩罚 强加 约束 的 原因 是 惩罚 可 能 会 导 
致 目标 函数 非 凸 而 使 算法 陷入 局 部 极 小 (对 应 于 小 的 6 )。 当 训练 神经 网 络 时 ， 这 通 
常 表现 为 训练 带 有 几 个 “死亡 单元 ”的 神经 网 络 。 这 些 单元 不 会 对 网 络 学 到 的 函数 
有 太 大 影响 ， 因 为 进入 或 离开 它们 的 权重 都 非常 小 。 当 使 用 权重 范 数 的 惩罚 训练 时 ， 
即使 可 以 通过 增加 权重 以 显著 减少 J/， 这 些 配置 也 可 能 是 局 部 最 优 的 。 因 为 重 投影 
实现 的 显 式 约束 不 鼓励 权重 接近 原点 ， 所 以 在 这 些 情况 下 效果 更 好 。 通 过 重 投影 实 
现 的 显 式 约 束 只 在 权重 变 大 并 试图 离开 限制 区 域 时 产生 作用 。 

最 后 ， 因 为 重 投影 的 显 式 约 束 还 对 优化 过 程 增加 了 一 定 的 稳定 性 ， 所 以 这 是 另 
一 个 好 处 。 当 使 用 较 高 的 学 习 率 时 ,很 可 能 进入 正 反 馈 ， 即 大 的 权重 诱导 大 梯度 ， 然 
后 使 得 权重 获得 较 大 更 新 。 如 果 这 些 更 新 持续 增加 权重 的 大 小 ，6 就 会 迅速 增 大 , 直 
到 离 原点 很 远 而 发 生 溢出 。 重 投影 的 显 式 约 束 可 以 防止 这 种 反馈 环 引起 权重 无 限制 
地 持续 增加 。Hinton et o (2012c) 建议 结合 使 用 约束 和 高 学 习 速 率 ， 这 样 能 更 快 地 
探索 参数 空间 ， 并 保持 一 定 的 稳定 性 。 
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Hinton et ol. (2012c) 尤其 推荐 由 Srebro and Shraibman (2005) 引入 的 策略 : 约 
束 神 经 网 络 层 的 权重 矩阵 每 列 的 范 数 ， 而 不 是 限制 整个 权重 矩阵 的 Frobenius 范 数 。 
分 别 限 制 每 一 列 的 范 数 可 以 防止 某 一 隐藏 单元 有 非常 大 的 权重 。 如 果 我 们 将 此 约束 
转换 成 Lagrange 困 数 中 的 一 个 惩罚 ， 这 将 与 到 权重 衰减 类 似 但 每 个 隐藏 单元 的 权 
重 都 具有 单独 的 KKT 乘 子 。 每 个 KKT 乘 子 分 别 会 被 动态 更 新 ， 以 使 每 个 隐藏 单 
元 服从 约束 。 在 实践 中 ， 列 范 数 的 限制 总 是 通过 重 投影 的 显 式 约 束 来 实现 。 





























7.3 ”正则 化 和 欠 约 束 问 题 


在 某 些 情况 下 ， 为 了 正确 定义 机 需 学 习 问 题 ， 正 则 化 是 必要 的 。 机 器 学 习 中 许 
多 线性 模型 ， 包 括 线性 回归 和 PCA ， 都 依赖 于 对 抢 阵 妃 " 尺 求 道 。 只 要 妃 " 怀 是 奇 
异 的， 这 些 方法 就 会 失效 。 当 数据 生成 分 布 在 一 些 方向 上 确实 没有 差异 时 ， 或 因为 
例子 较 少 〈 即 相对 输入 特征 的 维 数 来 说 ) 而 在 一 些 方向 上 没有 观察 到 方差 时 ， 这 个 
和 矩阵 就 是 奇异 的 。 在 这 种 情况 下 , 正则 化 的 许多 形式 对 应 求 道 怀 " 筷 + a 瑟 这 个 正则 
化 和 矩阵 可 以 保证 是 可 逆 的 。 

相关 和 矩阵 可 逆 时 ， 这 些 线性 问题 有 闭 式 解 。 没 有 闭 式 解 的 问题 也 可 能 是 从 定 的 。 
一 个 例子 是 应 用 于 线性 可 分 问题 的 逻辑 回归 。 如 果 权 重 向 量 w 能 够 实现 完美 分 类 ， 
那么 2uw 也 会 以 更 高 似 然 实现 完美 分 类 。 类 似 随 机 梯度 下 降 的 迭代 优化 算法 将 持续 
增加 ww 的 天 小 ， 理 论 上 永远 不 会 停止 。 在 实践 中 ， 数 值 实现 的 梯度 下 降 最 终 会 达到 
导致 数值 溢出 的 超大 权重 ， 此 时 的 行为 将 取决 于 程序 员 如 何 处 理 这 些 不 是 真正 数字 
的 值 。 

大 多 数 形 式 的 正则 化 能 够 保证 应 用 于 欠 定 问题 的 迭代 方法 收 代 。 例 如 ， 当 似 然 
的 斜率 等 于 权重 误 减 的 系数 时 ， 权 重 衰减 将 阻止 梯度 下 降 继续 增加 权重 的 大 小 。 

使 用 正则 化 解决 从 定 问 题 的 想法 不 局 限于 机 器 学 习 。 同 样 的 想法 在 几 个 基本 线 
生 代 数 问题 中 也 非常 有 用 。 

正如 我 们 在 第 2.9 节 看 到 的 ， 我 们 可 以 使 用 Moore-Penrose 求解 从 定 线性 方程 。 
回想 球 伪 逆 和 + 的 一 个 定义 ， 
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X+ 一 Jama(X 王 二 a 丰 -1 (7.29) 


现在 我 们 可 以 将 第 7.29 节 看 作 进行 具有 权重 衰减 的 线性 回归 。 具 体 来 说 , 当 正 则 化 系 
数 趋向 0 时 ， 式 (7.29) 是 式 (7.17) 的 极限 。 因 此 ， 我 们 可 以 将 伪 送 解释 为 使 用 正则 
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化 来 稳定 从 定 问 题 。 


7.4 数据 集 增 强 


让 机 器 学 习 模 型 泛 化 得 更 好 的 最 好 办 法 是 使 用 更 多 的 数据 进行 训练 。 当 然 ， 在 
实践 中 ， 我 们 拥有 的 数据 量 是 很 有 限 的 。 解 决 这 个 问题 的 一 种 方法 是 创建 假 数 据 并 
添加 到 训练 集中 。 对 于 一 些 机 器 学 习 任务 ， 创 建新 的 假 数 据 相 当 简 单 。 

对 分 类 来 说 这 种 方法 是 最 简单 的 。 分 类 器 需要 一 个 复杂 的 高 维 输入 z， 并 用 单 
个 类 别 标识 y 概括 z。 这 意味 着 分 类 面临 的 一 个 主要 任务 是 要 对 各 种 各 样 的 变换 保 
持 不 变 。 我 们 可 以 轻易 通过 转换 训练 集中 的 = 来 生成 新 的 (z,y) 对 。 

这 种 方法 对 于 其 他 许多 任务 来 说 并 不 那么 容易 。 例 如 ， 除 非 我 们 已 经 解决 了 密 
度 佑 计 问 题 ， 和 否则 在 密度 估计 任务 中 生成 新 的 假 数 据 是 很 困难 的 。 

数据 集 增强 对 一 个 具体 的 分 类 问题 来 说 是 特别 有 效 的 方法 : 对 象 识别 。 图 像 是 
高 维 的 并 包括 各 种 巨大 的 变化 因素 ， 其 中 有 许多 可 以 轻易 地 模拟 。 即 使 模型 已 使 用 
卷 积 和 池 化 技术 〈 第 九 章 ) 对 部 分 平移 保持 不 变 ， 沿 训练 图 像 每 个 方向 平移 几 个 像 
素 的 操作 通常 可 以 大 大 改善 泛 化 。 许 多 其 他 操作 如 旋转 图 像 或 缩放 图 像 也 已 被 证 明 
非常 有 效 。 

我 们 必须 要 小 心 ， 不 能 使 用 会 改变 类 别 的 转换 。 例 如 ， 光 学 字符 识别 任务 需要 
认识 到 “b” 和 “qd” 以 及 “6” 和 “9” 的 区 别 ,所 以 对 这 些 任 务 来 说 ,水 平 翻转 和 旋转 
180" 并 不 是 合适 的 数据 集 增强 方式 。 

能 保持 我 们 希望 的 分 类 不 变 ， 但 不 容易 执行 的 转换 也 是 存在 的 。 例 如 ， 平 面 外 
绕 轴 转动 难以 通过 简单 的 几何 运算 在 输入 像素 上 实现 。 

数据 集 增强 对 语音 识别 任务 也 是 有 效 的 (Jaitly and Hinton, 2013)。 

在 神经 网 络 的 输入 层 注入 噪声 (Sietsma and Dow, 1991) 也 可 以 被 看 作 是 数据 增 
强 的 一 种 方式 。 对 于 许多 分 类 其 至 一 些 回 归 任 务 而 言 ， 即 使 小 的 随机 噪声 被 加 到 输 
入 , 任务 仍 应 该 是 能 够 被 解决 的 。 然 而 ， 神 经 网 络 被 证 明 对 噪声 不 是 非常 健壮 (Tang 
and Eliasmith, 2010)。 改 善 神经 网 络 健壮 性 的 方法 之 一 是 简单 地 将 随机 噪声 添加 到 
输入 再 进行 训练 。 输 入 噪声 注入 是 一 些 无 监督 学 习 算 法 的 一 部 分 ， 如 去 噪 自 编码 
器 (Vincent et oL., 2008a)。 向 隐藏 单元 施加 噪声 也 是 可 行 的 ,这 可 以 被 看 作 在 多 个 抽 
象 屋 上 进行 的 数据 集 增强 。Poole et ol. (2014) 最 近 表 明 ， 噪 声 的 幅度 被 细心 调整 后 ， 
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该 方法 是 非常 高 效 的 。 我 们 将 在 第 7.12 刷 介 绍 一 个 强大 的 正则 化 策略 Dropout， 该 
策略 可 以 被 看 作 是 通过 与 噪声 相 乘 构建 新 输入 的 过 程 。 

在 比较 机 天 学 习 基准 测试 的 结果 时 ， 考 虑 其 采取 的 数据 集 增强 是 很 重要 的 。 通 
常情 况 下 ， 人 工 设 计 的 数据 集 增 强 方案 可 以 大 大 减少 机 器 学 习 技 术 的 泛 化 误差 。 将 
一 个 机 天 学 习 算 法 的 性 能 与 另 一 个 进行 对 比 时 ， 对 照 实验 是 必要 的 。 在 比较 机 顺 学 
习 算法 A 和 机 器 学 习 算法 B 时 , 应 该 确保 这 两 个 算法 使 用 同一 人 工 设计 的 数据 集 增 
强 方案 。 假 设 算法 4 在 没有 数据 集 增 强 时 表现 不 佳 ， 而 召 结合 大 量 人 工 转换 的 数 
据 后 表现 良好 。 在 这 样 的 情况 下 ， 很 可 能 是 合成 转化 引起 了 性 能 改进 ， 而 不 是 机 顺 
学 习 算法 如 比 算法 4 更 好 。 有 时 候 ， 确 定 实验 是 否 已 经 适当 控制 需要 主观 判断 。 例 
如 ， 向 输入 注入 噪声 的 机 器 学 习 算法 是 执行 数据 集 增 强 的 一 种 形式 。 通 常 ， 普 适 操 
作 〈 例 如 ， 向 输入 添加 高 斯 噪声 ) 被 认为 是 机 天 学 习 算 法 的 一 部 分 ， 而 特定 于 一 个 
应 用 领域 (如 随机 地 裁剪 图 像 ) 的 操作 被 认为 是 独立 的 预 处 理 步 又 。 




















7.5 “噪声 鲁 棒 性 


第 7.4 节 已 经 提出 将 噪声 作用 于 输入 , 作为 数据 集 增强 策略 。 对 于 某 些 模型 而 言 
向 输入 添加 方差 极 小 的 噪声 等 价 于 对 权重 施加 范 数 惩罚 (Bishop, 1995a,b)。 在 一 般 情 
况 下 , 注入 噪声 远 比 简单 地 收缩 参数 强大 , 特别 是 噪声 被 添加 到 隐藏 单元 时 会 更 加 强 
大 。 向 隐藏 单元 添加 噪声 是 值得 单独 讨论 重要 的 话题 ;在 第 7.12 节 所 述 Dropout 算 
法 是 这 种 做 法 的 主要 发 展 方向 。 

另 一 种 正则 化 模型 的 噪声 使 用 方式 是 将 其 加 到 权重 。 这 项 技术 主要 用 于 循环 神 
经 网 络 (Jim et ol, 1996; Graves, 2011)。 这 可 以 被 解释 为 关于 权重 的 贝 叶 斯 推断 的 
随机 实现 。 贝 叶 斯 学 习 过 程 将 权重 视 为 不 确定 的 ， 并 且 可 以 通过 概率 分 布 表示 这 种 
不 确定 性 。 向 权重 添加 噪声 是 反映 这 种 不 确定 性 的 一 种 实用 的 随机 方法 。 

在 某 些 假设 下 ， 施 加 于 权重 的 噪声 可 以 被 解释 为 与 更 传统 的 正则 化 形式 等 同 ， 
鼓励 要 学 习 的 函数 保持 稳定 。 我 们 研究 回归 的 情形 ， 也 就 是 训练 将 一 组 特征 = 映射 
成 一 个 标量 的 函数 gz)， 并 使 用 最 小 二 乘 代价 函数 衡量 模型 预测 值 g(z) 与 真实 值 9 
的 误差 ; 


























了 一 了 pco[(9z) 一 幼 7. (7.30) 


训练 集 包含 mm 对 标注 样 例 {(z00,y0) (ztm,ycoo)}。 


76 半 监 督学 习 209 


现在 我 们 假设 对 每 个 输入 表示 ， 网 络 权 重 添加 随机 扰动 ee ~ N(e; 0,7T)。 想 象 
我 们 有 一 个 标准 的 ! 层 MLP。 我 们 将 扰动 模型 记 为 灾 w(z)。 尽 管 有 噪声 注入 ,我 们 
仍然 硕 望 减少 网 络 输出 误差 的 平方 。 因 此 目标 函数 变 为 : 


Jm = 了 ooyem[(gew(z) 一人] (7.31) 
二 正 p(zyiemw) [大 (z) 一 2V7ew(Z) 十 29]. (7.32) 




















对 于 小 的 7?， 最 小 化 带 权 重 噪声 (方差 为 IT ) 的 7 等 同 于 最 小 化 附加 正则 化 项 : 
Po 由 Y 丈 余 四 卜 的 ys。 这 种 形式 的 正则 化 鼓励 参数 进入 权重 小 扰动 对 输出 相对 
影响 较 小 的 参数 空间 区 域 。 换 名 话说 ， 它 推动 模型 进入 对 权重 小 的 变化 相对 不 敏感 
的 区 域 ， 找 到 的 点 不 只 是 极 小 点 ， 还 是 由 平坦 区 域 所 包围 的 极 小 点 (Hochreiter and 
Schmidhuber, 1995)。 在 简化 的 线性 回归 中 (例如 ,gz) = wz+D)， 正 则 项 退化 为 
7 了 Pa[ 几 zl 站 ， 这 与 函数 的 参数 无 关 ， 因 此 不 会 对 兄 关于 模型 参数 的 梯度 有 影响 。 











全 




















7.5.1 ”向 输出 目标 注入 噪声 


大 多 数 数据 集 的 y 标签 都 有 一 定 错误 。 错 误 的 y 不 利于 最 大 化 logp(y | 四 。 直 了 
免 这 种 情况 的 一 种 方法 是 显 式 地 对 标签 上 的 噪声 进行 建 模 。 例 如 , 我 们 可 以 假设 ,对 
于 一 些小 背 数 e, 训练 集 标记 y 是 正确 的 概率 是 1--e, (以 *e 的 概率 ) 任何 其 他 可 能 
的 标签 也 可 能 是 正确 的 。 这 个 假设 很 容易 就 能 解析 地 与 代价 函数 结合 ， 而 不 用 显 式 
地 抽取 噪声 样本 。 人 例如， 标签 平滑 (label smoothing ) 通过 把 确切 分 类 目标 从 0 和 
1 替换 成 二 和 工 -e， 正 则 化 具有 大 个 输出 的 softmax 函数 的 模型 。 标 准 交 叉 和 
损失 可 以 用 在 这 些 非 确切 目标 的 输出 上 。 使 用 softmax 困 数 和 明确 目标 的 最 大 似 然 
学 习 可 能 永远 不 会 收敛 一 一 softmax 函数 永远 无 法 真正 预测 0 概率 或 1 概率 ， 因 此 
它 会 继续 学 习 越 来 越 大 的 权重 ， 使 预测 更 极端 。 使 用 如 权重 衰减 等 其 他 正则 化 策略 
能 够 防止 这 种 情况 。 标 签 平 滑 的 优势 是 能 够 防止 模型 追求 确切 概率 而 不 影响 模型 学 
习 正 确 分 类 。 这 种 策略 自 20 世纪 80 年 代 就 已 经 被 使 用 ， 并 在 现代 神经 网 络 继续 保 
持 显 著 特 色 (Szegedy et al., 2015)。 




















5， 半 监 督 持 习 





在 半 监 督学 习 的 框架 下 ，P(x) 产生 的 未 标记 样本 和 P(x,y) 中 的 标记 样本 都 用 
于 估计 P(y | x) 或 者 根据 x 预测 y。 


210 第 七 章 ”深度 学 习 中 的 正则 化 








在 深度 学 习 的 背景 下 ， 半 监督 学 习 通 稼 指 的 是 学 习 一 个 表示 疡 = j 帮 z)。 学 习 表 
示 的 目的 是 使 相同 类 中 的 样本 有 类 似 的 表示 。 无 监督 学 习 可 以 为 如 何在 表示 空间 聚 
集 样 本 提供 有 用 线索 。 在 输入 空间 紧密 聚集 的 样本 应 该 被 映射 到 类 似 的 表示 。 在 许 
多 情况 下 ， 新 空间 上 的 线性 分 类 咒 可 以 达到 较 好 的 泛 化 (Belkin and Niyogi，2002; 
Chapelle et al., 2003)。 这 种 方法 的 一 个 经 典 变种 是 使 用 主 成 分 分 析 作 为 分 类 前 (在 
投影 后 的 数据 上 分 类 ) 的 预 处 理 步 又 。 

我 们 可 以 构建 这 样 一 个 模型 ,其 中 生成 模型 忆 (x) 或 P(x,y) 与 判别 模型 P(y | zx) 
共享 参数 ， 而 不 用 分 离 无 监督 和 监督 部 分 。 我 们 权衡 监督 模型 准则 -log P(y | zx) 
和 无 监督 或 生成 模型 准则 (如 -log P(x) 或 -log P(x,y) )。 生 成 模型 准则 表达 了 
对 监督 学 习 问 题解 的 特殊 形式 的 先 验 知识 (Lasserre et al., 20060)， 即 P(x) 的 结构 通 
过 某 种 共享 参数 的 方式 连接 到 P(y | x)。 通 过 控制 在 总 准则 中 的 生成 准则 ， 我 们 可 
以 获得 比 纯 生成 或 纯 判 别 训练 准则 更 好 的 权 衔 (Lasserre et al., 2006; Larochelle and 
Bengio, 2008a)。 

Salakhutdinov and Hinton (2008) 描述 了 一 种 学 习 回 归 核 机 器 中 核 机 数 的 方法 ， 
其 中 建 模 P(x) 时 使 用 的 未 标记 样本 大 大 提高 了 忆 (y | x) 的 效果 。 

更 多 半 监 督学 习 的 信息 ， 请 参阅 Chapelle et o/ (2006)。 























7.7 多 任务 学 习 


多 任务 学 习 (Caruana, 1993) 是 通过 合并 几 个 任务 中 的 样 例 (可 以 视 为 对 参数 
施加 的 软 约 束 ) 来 提高 泛 化 的 一 种 方式 。 正 如 额外 的 训练 样本 能 够 将 模型 参数 推 向 
具有 更 好 泛 化 能 力 的 值 一 样 ， 当 模型 的 一 部 分 被 多 个 额外 的 任务 共享 时 ， 这 部 分 将 
被 约束 为 良好 的 值 (如果 共享 合理 )， 通 常会 带 来 更 好 的 泛 化 能 

图 7.2 展 示 了 多 任务 学 习 中 非常 普遍 的 一 种 形式 ， 其 中 不 同 的 监督 任务 ( 给 定 X 
预测 y@) ) 共享 相同 的 输入 x 以 及 一 些 中 间 层 表示 jshee) ， 能 学 习 共同 的 因素 池 。 
该 模型 通常 可 以 分 为 两 类 相关 的 参数 : 


1. 具体 任务 的 参数 〈 只 能 从 各 自任 务 的 样本 中 实现 良好 的 泛 化 )。 如 图 7.2 中 的 上 
层 ; 


2. 所 有 任务 共享 的 通用 参数 ( 从 所 有 任务 的 汇集 数据 中 获 益 )。 如 图 7.2 中 的 下 层 。 
因为 共享 参数 ， 其 统计 强度 可 大 大 提高 〈 共 享 参数 的 样本 数量 相对 于 单 任 务 模 
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图 7.2: 多 任务 学 习 在 座 度 学 习 框 架 中 可 以 以 多 种 方式 进行 ， 该 图 说 明了 任务 共享 相同 输入 但 涉及 
不 同 目标 随机 变量 的 常见 情况 。 深 度 网 络 的 较 低 层 〈 无 论 是 监督 前 馈 的， 还 是 包括 向 下 箭头 的 生 
成 组 件 ) 可 以 跨 这 样 的 任务 共享 ， 而 任务 特定 的 参数 ( 分 别 与 从 j0) 和 帮 2) 进入 和 发 出 的 权重 ) 
可 以 在 共享 表示 jesheea) 之 上 学 习 。 这 里 的 基本 假设 是 存在 解释 输入 x 变化 的 共同 因素 池 ， 而 每 
个 任务 与 这 些 因素 的 子 集 相关 联 。 在 该 示例 中 ， 额 外 假设 顶层 隐藏 单元 Nt) 和 jx2) 专用 于 每 个 任 
务 (分 别 预测 y0) 和 y62) )， 而 一 些 中 间 层 表示 Msrarea) 在 所 有 任务 之 间 共 享 。 在 无 监督 学 习 情 
况 下 ， 一 些 顶 层 因素 不 与 输出 任务 (12)) 的 任意 一 个 关联 是 有 意义 的 : 这 些 因 素 可 以 解释 一 些 输 
和 人 变化 但 与 预测 yt) 或 y'52) 不 相关 。 










































































式 增加 的 比例 )， 并 能 改善 泛 化 和 泛 化 误差 的 范围 (Baxter, 1995)。 当 然 ， 仅 当 不 同 
的 任务 之 间 存 在 某 些 统计 关系 的 假设 是 合理 ( 意味 着 某 些 参数 能 通过 不 同 任务 共享 ) 
时 才 会 发 生 这 种 情况 。 

从 深度 学 习 的 观点 看 ， 底 层 的 先 验 知识 如 下 ， 能 解释 数据 变化 在 与 之 相关 联 
的 不 同 任务 中 观察 到 ) 的 因素 中 ， 某 些 因素 是 跨 两 个 或 更 多 任务 共享 的 。 


7.8 “提前 终止 


当 训练 有 足够 的 表示 能 力 甚至 会 过 拟 合 的 大 模型 时 ， 我 们 经 党 观察 到 ， 训 练 误 
差 会 随 着 时 间 的 推移 逐渐 降低 但 验证 集 的 误差 会 再 次 上 升 。 图 7.3 是 这 些 现象 的 一 个 
例子 ， 这 种 现象 几乎 一 定 会 出 现 。 

这 意味 着 我 们 只 要 返回 使 验证 集 误差 最 低 的 参数 设置 ， 就 可 以 获得 验证 集 误 差 
更 低 的 模型 (并且 因此 有 和 希望 获得 更 好 的 测试 误差 )。 在 每 次 验证 集 误 差 有 所 改善 
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后 ， 我 们 存储 模型 参数 的 副本 。 当 训练 算法 终止 时 ， 我 们 返回 这 些 参数 而 不 是 最 讲 
的 参数 。 当 验证 集 上 的 误差 在 事先 指定 的 循环 次 数 内 没有 进一步 改善 时 ， 算 法 就 会 
终止 。 此 过 程 在 算法 7.1 中 有 更 正式 的 说 明 。 

这 种 策略 被 称 为 提前 终止 (early stopping )。 这 可 能 是 深度 学 习 中 最 常用 的 正 
则 化 形式 。 它 的 流行 主要 是 因为 有 效 性 和 简单 性 。 























算法 7.1 用 于 确定 最 佳 训练 时 间 量 的 提前 终止 元 算法 。 这 种 元 算法 是 一 种 通用 策略 ， 
可 以 很 好 地 在 各 种 训练 算法 和 各 种 量化 验证 集 误 差 的 方法 上 工作 。 

令 也 为 评估 间隔 的 步 数 。 

令 了 为 “耐心 (patience)”， 即 观察 到 较 坏 的 验证 集 表现 p 次 后 终止 。 

令 0。 为 初始 参数 。 

0 二 0。 

1 人 0 





7 入 0 

uU 扩 CO 

入 二 0 

人 《41 

while7 < 2 do 
运行 训练 算法 m” 步 ， 更 新 0 。 
1 47 十 隐 
u 入 ValidationSetError(O) 
证 v < v then 





7 入 0 

0 二 0O 
作 人 1 

ut 

else 

了 外 十 丁 
end 证 


end while 


最 佳 参数 为 6 ， 最 佳 训练 步 数 为 字 








我 们 可 以 认为 提前 终止 是 非常 高 效 的 超 参 数 选择 算法 。 按 照 这 种 观点 ， 训 练 步 
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数 仅 是 妃 一 个 超 参数 。 我 们 从 图 7.3 可 以 看 到 , 这 个 超 参 数 在 验证 集 上 具有 U 型 性 能 
曲线 。 很 多 控制 模型 容量 的 超 参数 在 验证 集 上 都 是 这 样 的 U 型 性 能 曲线 ， 如 图 5.3 。 
在 提前 终止 的 情况 下 ， 我 们 通过 控制 拟 合 训练 集 的 步 数 来 控制 模型 的 有 效 容量 。 大 
多 数 超 参数 的 选择 必须 使 用 高 代价 的 猜测 和 检查 过 程 ， 我 们 需要 在 训练 开始 时 猜测 
一 个 超 参 数 ， 然 后 运行 几 个 步骤 检查 它 的 训练 效果 。“ 训 练 时 间 ” 是 唯一 只 要 跑 一 次 
训练 就 能 答 试 很 多 值 的 超 参 数 。 通 过 提前 终止 自动 选择 超 参 数 的 唯一 显著 的 代价 是 
训练 期 间 要 定期 评 佑 验证 集 。 在 理想 情况 下 ， 这 可 以 并 行 在 与 主 训练 过 程 分 离 的 机 
项 上 ， 或 独立 的 CPU， 或 独立 的 GPU 上 完成 。 如 果 没 有 这 些 额 外 的 资源 ， 可 以 使 
用 比 训练 集 小 的 验证 集 或 较 不 频繁 地 评估 验证 集 来 减 小 评估 代价 ， 较 粗略 地 估算 取 
得 最 佳 的 训练 时 间 。 

另 一 个 提前 终止 的 额外 代价 是 需要 保持 最 佳 的 参数 副本 。 这 种 代价 一 般 是 可 忽 
略 的 ， 因 为 可 以 将 它 储存 在 较 慢 较 大 的 存储 器 上 《例如 , 在 GPU 内 存 中 训练 ,但 将 
最 佳 参数 存储 在 主 存储 器 或 磁盘 驱动 器 上 )。 由 于 最 佳 参 数 的 写 和 人 很 少 发 生 而 且 从 不 
在 训练 过 程 中 读 取 ， 这 些 偶发 的 慢 写 和 人 对 总 训练 时 间 的 影响 不 大 。 
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图 7.3: 学 习 曲 线 显 示 负 对 数 似 然 损失 如 何 随时 间 变 化 〈 表示 为 遍历 数据 集 的 训练 欠 代 数 ， 或 轮 数 
(epochs ))。 在 这 个 例子 中 ,我 们 在 MNIST 上 训练 了 一 个 maxonut 网 络 。 我 们 可 以 观察 到 训练 目 
标 随时 间 持 续 减 小 ， 但 验证 集 上 的 平均 损失 最 终 会 再 次 增加 ， 形 成 不 对 称 的 U 形 昌 线 。 



























































提前 终止 是 一 种 非常 不 显眼 的 正则 化 形式 ， 它 几乎 不 需要 改变 基本 训练 过 程 、 
目标 函数 或 一 组 允许 的 参数 值 。 这 意味 着 ， 无 需 破坏 学 习 动 态 就 能 很 容易 地 使 用 提 
前 终止 。 相 对 于 权重 衰减 ,必须 小 心 不 能 使 用 太 多 的 权重 衰减 ， 以 防 网 络 陷 人 不 良 局 
部 极 小 点 (对 应 于 病态 的 小 权重 )。 
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提前 终止 可 单独 使 用 或 与 其 他 的 正则 化 策略 结合 使 用 。 即 使 为 鼓励 更 好 泛 化 , 使 
用 正则 化 策略 改进 目标 函数 ， 在 训练 目标 的 局 部 极 小 点 达到 最 好 泛 化 也 是 非常 罕见 
的 。 

提前 终止 需要 验证 集 ， 这 意味 着 某 些 训练 数据 不 能 被 俩 送 到 模型 。 为 了 更 好 地 
利用 这 一 额外 的 数据 ， 我 们 可 以 在 完成 提前 终止 的 首次 训练 之 后 ， 进 行 额外 的 训练 。 
在 第 二 轮 ， 即 额外 的 训练 步骤 中 ， 所 有 的 训练 数据 都 被 包括 在 内 。 有 两 个 基本 的 策 
略 都 可 以 用 于 第 二 轮训 练 过 程 。 

一 个 策略 (算法 7.2 ) 是 再 次 初始 化 模型 ， 然 后 使 用 所 有 数据 再 次 训练 。 在 这 个 
第 二 轮训 练 过 程 中 ,我们 使 用 第 一 轮 提前 终止 训练 确定 的 最 佳 步 数 。 此 过 程 有 一些 
细微 之 处 。 例 如 ， 我 们 没有 办 法 知道 重新 训练 时 ， 对 参数 进行 相同 次 数 的 更 新 和 对 
数据 集 进行 相同 次 数 的 遍历 哪 一 个 更 好 。 由 于 训练 集 变 大 了 ， 在 第 二 轮训 练 时， 每 
一 次 饥 历 数据 集 将 会 更 多 次 地 更 新 参数 。 

另 一 个 策略 是 保持 从 第 一 轮训 练 获得 的 参数 ， 然 后 使 用 全 部 的 数据 继续 训练 。 
在 这 个 阶段 ， 已 经 没有 验证 集 指 导 我 们 需要 在 训练 多 少 步 后 终止 。 取 而 代 之 ,我们 
可 以 监控 验证 集 的 平均 损失 函数 ， 并 继续 训练 ， 直 到 它 低 于 提前 终止 过 程 终止 时 的 
目标 值 。 此 策略 避免 了 重新 训练 模型 的 高 成 本 ， 但 表现 并 没有 那么 好 。 例 如 ， 验 证 
集 的 目标 不 一 定 能 达到 之 前 的 目标 值 ， 所 以 这 种 策略 甚至 不 能 保证 终止 。 我 们 会 在 
算法 7.3 中 更 正式 地 介绍 这 个 过 程 。 

提前 终止 对 减少 训练 过 程 的 计算 成 本 也 是 有 用 的 。 除 了 由 于 限制 训练 的 迁 代 次 
数 而 明显 减少 的 计算 成 本 ， 还 带 来 了 正则 化 的 益处 (不 需要 添加 惩罚 项 的 代价 函 
数 或 计算 这 种 附加 项 的 梯度 ) 





























算法 7.2 使 用 提前 终止 确定 训练 步 数 ， 然 后 在 所 有 数据 上 训练 的 元 算法 。 

令 Xeein) 和 We 为 训练 集 。 

将 (train) 和 Witrain) 分 别 分 制 为 人 0 9 和 (Wubtrain)， Valid))。 

从 随机 0 开始 ， 使 用 厌 (subtrain) 和 Usubtrain) 作为 训练 集 ， 筷 (Cvalid) 和 valid) 作为 
验证 集 ， 运 行 (算法 7.1)。 这 将 返回 最 佳 训练 步 数 站。 

将 9 再 次 设 为 随机 值 。 

在 re 和 Yesin 上 训练 # 步 。 
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算法 7.3 使 用 提前 终止 确定 将 会 过 拟 合 的 目标 值 ， 然 后 在 所 有 数据 上 训练 直到 再 次 
达到 该 值 的 元 算法 。 

令 oe 和 Win 为 训练 集 。 

将 科 (train) 和 ttrain) 分 别 分 割 为 ( 和 Xubtrain)， 宛 Celg)) 和 (Wubtrain)， Waid)。 

从 随机 8 开始 ,使 用 忆 ewpeain) 和 geabpam) 作为 训练 集 ， 瑟 ia) 和 Wivalidg) 作为 

验证 集 ， 运 行 (算法 7.1)。 这 会 更 新 9。 

已 & .J(0， 了 Vsubtrain)) 

while .J(9, XCalid) ,yovalid)) > e do 

在 和 tein) 和 Wai) 上 训练 风 步 。 


end while 














提前 终止 为 何 具 有 正则 化 效果 : ”目前 为 止 ， 我 们 已 经 声明 提前 终止 是 一 种 正则 化 策 
略 ， 但 我 们 只 通过 展示 验证 集 误差 的 学 习 曲 线 是 一 个 U 型 曲线 来 支持 这 种 说 法 。 
提前 终止 正则 化 模型 的 真正 机 制 是 什么 呢 ? Bishop (1995a) 和 8Sj5berg and Ljung 
(1995) 认为 提前 终止 可 以 将 优化 过 程 的 参数 空间 限制 在 初始 参数 值 bo 的 小 邻 域内 。 
更 具体 地 ， 想 象 用 学 习 率 e 进行 7 个 优化 步 又 (对 应 于 7 个 训练 迁 代 )。 我 们 可 以 
将 er 作为 有 效 容量 的 度量 。 假 设 梯度 有 界 ， 限 制 欠 代 的 次 数 和 学 习 速 率 能 够 限制 从 
bo 到 达 的 参数 空间 的 大 小 ， 如 图 7.4 所 示 。 在 这 个 意义 上 ，er 的 效果 就 好 像 是 权重 
衰减 系数 的 倒数 。 

事实 上 , 在 二 次 误差 的 简单 线性 模型 和 简单 的 梯度 下 降 情 况 下 , 我 们 可 以 展示 提 
前 终止 相当 于 疙 正则 化 。 

为 了 与 经 典 二 正 则 化 比较 ， 我 们 只 考察 唯一 的 参数 是 线性 权重 (8 = 也) 的 简 
单 情形 。 我 们 在 权重 w 的 经 验 最 佳 值 wx 附近 以 二 次 近似 建 模 代价 函 数 7: 

1 


.1(9) = J(ur) 十 可 ( 忆 一 (ww 一 人 好)， (7.33) 


其 中 五 是 了 关于 凤 在 人 点 的 Hessian。 鉴 于 假设 迪 是 J(w) 的 最 小 点 ， 我 们 知 
道 互 为 半 正 定 。 在 局 部 泰勒 级 数 下 近 下 ， 梯 度 由 下 式 给 出 : 























Vu7(uw) = 再 (ww 一 他)， (7.34) 


接 下 来 我 们 研究 训练 时 参数 向 量 的 轨迹 。 为 简化 起 见 ， 我 们 将 参数 向 量 初始 化 
为 原点 ?， 也 就 是 wlo) = 0。 我 们 通过 分 析 ./ 上 的 梯度 下 降 来 研究 j 上 近似 的 梯度 
?对 于 神经 网 络 ， 我 们 需要 打破 隐藏 单元 间 的 对 称 平衡 因此 不 能 将 所 有 参数 都 初始 化 为 0 ( 如 第 6.2 节 所 讨论 的 )。 
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图 7.4: 提前 终止 效果 的 示意 图 。( 堪 ) 实 线 轮廓 线 表 示 负 对 数 似 然 的 轮廓 。 虚 线 表 示 从 原点 开始 
的 SGD 所 经 过 的 轨迹 。 提 前 终止 的 轨迹 在 较 早 的 点 也 处 停止 ， 而 不 是 停止 在 最 小 化 代价 的 点 w 
处 。( 右 ) 为 了 对 比 ,， 使 用 产 正 则 化 效果 的 示意 图 。 虚 线 圆圈 表示 三 惩罚 的 轮廓 ， 三 惩罚 使 得 总 
代价 的 最 小 值 比 非 正 则 化 代价 的 最 小 值 更 靠近 原点 。 

















下 降 的 效果 : 
ua = 0 一 eVw7(oc-D) (7.35) 
= 一 ceo 一 Mo (7.36) 
ua 一 巡 =(T 一 ec 印 (woc-5 一 和). (7.37) 


现在 让 我 们 在 互 特 征 向 量 的 空间 中 改写 表达 式 ， 利 用 五 的 特征 分 解 : 互 = QAQT， 
其 中 A 是 对 角 和 矩阵 ，@ 是 特征 向 量 的 一 组 标准 正 交 基 。 
ug 一 迪 =(T-eQAQ )(wor-5 一 雪 ) (7.38) 
Q (om 一)=( 一 eA)Q (or 一 ) (7.39) 
假定 wolo) = 0 并 且 e 选择 得 足够 小 以 保证 |1 - exi| < 1， 经 过 r 次 参数 更 新 后 轨迹 
如 下 : 








Q um =I-( 一 eA 门 Q 太 (7.40) 
现在 , 式 (7.13) 中 Q 也 的 表达 式 能 被 重 写 为 : 

Q 忌 =(A+oaD-IAQT or， (7.41) 

Q 忆 =IT-(A+aDnr-ralQr or (7.42) 








然而 ， 对 于 其 他 任何 初始 值 ulo) 该 论证 都 成 立 
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比较 式 (7.40) 和 式 (7.42) ， 我 们 能 够 发 现 ， 如 果 超 参数 ea 和 r 满足 如 下 : 
(T 一 eA)7 =(A+oDr ra， (7.43) 


那么 三 正则 化 和 提前 终止 可 以 被 看 作 是 等 价 的 〈 至 少 在 目标 函数 的 二 次 近似 下 )。 
进一步 取 对 数 ， 使 用 log (1 +z) 的 级 数 展开 ， 我们 可 以 得 出 结论 : 如 果 所 有 X; 是 
小 的 ( 即 ex < 和 1 且 XN/a< 和 1)， 那么 


1 
和 一 7.44 
rw 工 ， (7 多 
(7.45) 
人 一 
了 6E 





也 就 是 说 ， 在 这 些 假设 下 ， 训 练 迁 代 次 数 > 起 着 与 到 参数 成 反比 的 作用 ，re 的 倒 
数 与 权重 衰减 系数 的 作用 类 似 。 

在 大 曲率 〈 目标 函数 ) 方向 上 的 参数 值 受 正则 化 影响 小 于 小 曲率 方向 。 当 然 ， 
在 提前 终止 的 情况 下 ， 这 实际 上 意味 着 在 大 曲率 方向 的 参数 比较 小 曲率 方向 的 参数 
更 早 地 学 习 到 。 

本 节 中 的 推导 表明 长 度 为 7 的 轨迹 结束 于 天 正则 化 目标 的 极 小 点 。 当 然 ， 提 前 
终止 比 简单 的 轨迹 长 度 限制 更 丰富 ; 取而代之 ， 提 前 终止 通常 涉及 监控 验证 集 误差 ， 
以 便 在 空间 特别 好 的 点 处 终止 轨迹 。 因 此 提前 终止 比 权 重 衰减 更 具有 优势 ， 提 前 终 
止 能 自动 确定 正则 化 的 正确 量 ， 而 权重 衰减 需要 进行 多 个 不 同 超 参数 值 的 训练 实验 。 

















7.9 “参数 绑 定 和 参数 共享 


目前 为 止 ， 本 章 讨论 对 参数 添加 约束 或 惩罚 时 ， 一 直 是 相对 于 固定 的 区 域 或 点 。 
例如 ， 五 正则 化 〈 或 权重 衰减 ) 对 参数 偏离 零 的 固定 值 进行 惩罚 。 然 而 ， 有 时 我 们 
可 能 需要 其 他 的 方式 来 表达 我 们 对 模型 参数 适当 值 的 先 验 知识 。 有 时 候 ， 我 们 可 能 
无 法 准确 地 知道 应 该 使 用 什么 样 的 参数 ， 但 我 们 根据 相关 领域 和 模型 结构 方面 的 知 
识 得 知 模型 参数 之 间 应 该 存在 一 些 相关 性 。 

我 们 经 常 想 要 表达 的 一 种 常见 依赖 是 某 些 参 数 应 当 彼 此 接近 。 考 虑 以 下 情形 : 
我 们 有 两 个 模型 执行 相同 的 分 类 任务 〈 具 有 相同 类 别 )， 但 输入 分 布 稍 有 不 同 。 形 式 
地 ， 我 们 有 参数 为 wlt) 的 模型 4 和 参数 为 wl2) 的 模型 妃 。 这 两 种 模型 将 输入 映射 
到 两 个 不 同 但 相关 的 输出 : 84) = jaot,z) 和 人 2B) = Fat),z)。 
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我 们 可 以 想象 ， 这 些 任 务 会 足够 相似 (或 许 具有 相似 的 输入 和 输出 分 布 )， 因 
此 我 们 认为 模型 参数 应 彼此 靠近 : Viw(4) 应 该 与 w!2) 接近 。 我 们 可 以 通过 正则 
化 利用 此 信息 。 具 体 来 说 , 我 们 可 以 使 用 以 下 形式 的 参数 范 数 惩罚 : QU ,we)) = 
aoc - ae 上 。 在 这 里 我 们 使 用 到 惩罚 ， 但 也 可 以 使 用 其 他 选择 。 

这 种 方法 由 Lasserre et ol. (2006) 提出 ， 正 则 化 一 个 模型 (监督 模式 下 训练 的 分 
类 器 ) 的 参数 ， 使 其 接近 另 一 个 无 监督 模式 下 训练 的 模型 ( 捕捉 观察 到 的 输入 数据 
的 分 布 ) 的 参数 。 构 造 的 这 种 架构 使 得 分 类 模型 中 的 许多 参数 能 与 无 监督 模型 中 对 
应 的 参数 匹配 。 

参数 范 数 惩罚 是 正则 化 参数 使 其 彼此 接近 的 一 种 方式 ， 而 更 流行 的 方法 是 使 用 
约束 : 强迫 某 些 参数 相等 。 由 于 我 们 将 各 种 模型 或 模型 组 件 解释 为 共享 唯一 的 一 组 
人 参数， 这 种 正则 化 方法 通常 被 称 为 参数 共享 ( Parameter sharing )。 和 正则 化 参数 使 
其 接近 ( 通过 范 数 惩罚 ) 相 比 ， 参 数 共 享 的 一 个 显著 优点 是 ， 只 有 参数 ( 唯一 一 个 集 
合 ) 的 子 集 需 要 被 存储 在 内 存 中 。 对 于 某 些 特定 模型 ， 如 卷 积 神经 网 络 ， 这 可 能 可 
以 显著 减少 模型 所 占用 的 内 存 。 





























7.9.1 “ 卷 积 神经 网 络 


目前 为 止 ， 最 流行 和 广泛 使 用 的 参数 共享 出 现在 应 用 于 计算 机 视觉 的 卷 积 神经 
网 络 CCNN ) 中 。 

自然 图 像 有 许多 统计 属性 是 对 转换 不 变 的 。 例 如 ， 猫 的 照片 即使 向 右边 移 了 一 
个 像素 ， 仍 保持 猫 的 照片 。CNN 通 过 在 图 像 多 个 位 置 共 享 参 数 来 考虑 这 个 特性 。 相 
同 的 特征 〈 具 有 相同 权重 的 隐藏 单元 ) 在 输入 的 不 同位 置 上 计算 获得 。 这 意味 着 无 
论 猫 出 现在 图 像 中 的 第 守 列 或 + 工 列 ， 我 们 都 可 以 使 用 相同 的 猫 探 测 顺 找到 猪 。 

参数 共享 显著 降低 了 CNN 模 型 的 参数 数量 ， 并 显著 提高 了 网 络 的 大 小 而 不 需要 
相应 地 增加 训练 数据 。 它 仍然 是 将 领域 知识 有 效 地 整合 到 网 络 架构 的 最 佳 范例 之 一 。 

我 们 将 会 在 第 九 章 中 更 详细 地 讨论 卷 积 神经 网 络 。 








7.10 “ 稀 中 表 示 











前 文 所 述 的 权重 衰减 直接 惩罚 模型 参数 。 另 一 种 策略 是 惩罚 神经 网 络 中 的 激活 
单元 ， 稀 玻 化 激活 单元 。 这 种 策略 间接 地 对 模型 参数 施加 了 复杂 惩罚 。 
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我 们 已 经 讨论 过 (在 第 7.1.2 节 中 ) 琅 惩罚 如 何 诱导 稀 玻 的 参数 ， 即 许多 参数 为 
零 (或 接近 于 零 ) 另 一 方面 ,表示 的 稀 玻 描述 了 许多 元 素 是 零 (或 接近 零 ) 的 表示 。 
我 们 可 以 线性 回归 的 情况 下 简单 说 明 这 种 区 别 : 























2 
18 40 0 -2 0 0 国 
5 00 -1 0 3 0 | 
15|=|05 0 0 0 00 (7.46) 
一 9 10 0 -1 0 -4 
9 10 0 0 -5 0 
2 E 下 普 4 E 限 岂 xm 4 
Z GE 了 要? 
0 
区 | 1 2 -5 4 | 日 
1 了 
0 
197| 三 11， 二 32 (7.47) 
2 T .2 0 | 
23 三 名 - 丰 E20 220 三 | | 
2 E 了 R 耿 万 E 月 岂 xm 0 
尹 E 月” 


一 个 表达 式 是 参数 稀 琉 的 线性 回归 模型 的 例子 。 第 二 个 表达 式 是 数据 z 具 
玉 的 线性 回归 。 也 就 是 说 , 疡 是 z 的 一 个 函数 ， 在 某 种 意义 上 表示 存在 
于 z 中 的 信息 ， 但 只 是 用 一 个 稀 琉 向 量 表示 。 
表示 的 正则 化 可 以 使 用 参数 正则 化 中 同 种 类 型 的 机 制 实现 。 
表示 的 范 数 惩罚 正则 化 是 通过 向 损失 函数 7y 添加 对 表示 的 范 数 惩罚 来 实现 的 。 
我 们 将 这 个 惩罚 记 作 Q( 六 。 和 以 前 一 样 ， 我 们 将 正则 化 后 的 损失 函数 记 作 .7: 














J(0; 成 人 妇 =J(0; 成 如 上 ao( 站 ， (7.48) 


其 中 a es [0, co] 权衡 范 数 惩罚 项 的 相对 贡献 ， 越 大 的 a 对 应 越 多 的 正则 化 。 


正如 对 参数 的 厂 : 惩罚 诱导 参数 稀 琉 性 ， 对 表示 元 素 的 万 惩罚 诱导 稀 琉 的 表示 : 
Q(p = pl = 宛 ;| 由。 当然 到 :惩罚 是 使 表示 稀 玻 的 方法 之 一 。 其 他 方法 还 包括 
从 表示 上 的 Student-t 先 验 导 出 的 惩罚 (Olshausen and Field,，1996; Bergstra，2011) 
和 KEL 散 度 惩 罚 (Larochelle and Bengio, 2008b)， 这 些 方法 对 于 将 表示 中 的 元 素 约束 
于 单位 区 间 上 特别 有 用 。Lee et ol. (2008) 和 Goodfellow et al. (2009) 都 提供 了 正则 
化 几 个 样本 平均 激活 的 例子 ， 即 令 寺 沁 ; 几 9 接近 某 些 目标 值 ( 如 每 项 都 是 .01 的 向 






































还 有 一 些 其 他 方法 通过 激活 值 的 硬性 约束 来 获得 表示 稀 琉 。 例 如 ， 正 交 匹 配 追 
踪 (orthogonal matching pursuit)(Pati et a/., 1993) 通过 解决 以 下 约束 优化 问题 将 输 
入 值 z 编码 成 表示 刀 





argminllz 一 三 刀 |， (7.49) 
旋 | 则 lo<K 





其 中 ml。 是 关中 非 零 项 的 个 数 。 当 本 被 约束 为 正 交 时 ,我们 可 以 高 效 地 解决 这 个 
问题 。 这 种 方法 通常 被 称 为 OMP-K， 通 过 上 指定 允许 的 非 零 特征 数量 。Coates and 
Ng (2011) 证 明 OMP-1 可 以 成 为 深度 架构 中 非常 有 效 的 特征 提取 器 。 

含有 隐藏 单元 的 模型 在 本 质 上 都 能 变 得 稀 琉 。 在 本 书 中 ， 我 们 将 看 到 在 各 种 情 
况 下 使 用 稀 玻 正则 化 的 例子 。 


7.11 Bagging 和 其 他 集成 方法 


Bagging (bootstrap aggregating ) 是 通过 结合 几 个 模型 降低 泛 化 误差 的 技术 
(Breiman，1994)。 主 要 想法 是 分 别 训练 几 个 不 同 的 模型 ， 然 后 让 所 有 模型 表决 测 
试 样 例 的 输出 。 这 是 机 器 学 习 中 党 规 策略 的 一 个 例子 ， 被 称 为 模型 平均 (model 
averaging )。 采 用 这 种 策略 的 技术 被 称 为 集成 方法 。 

模型 平均 ( model averaging ) 奏效 的 原因 是 不 同 的 模型 通常 不 会 在 测试 集 上 产 
生 完 全 相同 的 误差 。 

假设 我 们 有 个 回归 模型 。 假 设 每 个 模型 在 每 个 例子 上 的 误差 是  ， 这 个 误差 
服从 零 均 值 方 盖 为 也 [ez] = v 且 协 方差 为 了 [eej] = e 的 多 维 正 态 分 布 。 通 过 所 有 集 
成 模型 的 平均 预测 所 得 误差 是 二 六 , ei。 集 成 预测 需 平 方 误差 的 期 望 是 


sa。 


了 
本 
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在 误差 完全 相关 即 c = v 的 情况 下 ， 均 方 误 差 减 少 到 v， 所 以 模型 平均 没有 任何 帮 
助 。 在 错误 完全 不 相关 即 c = 0 的 情况 下 ， 该 集成 平方 误差 的 期 望 仅 为 刻 。 这 意味 
着 集成 平方 误差 的 期 望 会 随 着 集成 规模 增 大 而 线性 减 小 。 换 言 之 ,平均 上 ， 集 成 至 
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少 与 它 的 任何 成 员 表 现 得 一 样 好 ， 并 且 如 果 成 员 的 误差 是 独立 的 ， 集 成 将 显著 地 比 
其 成 员 表 现 得 更 好 。 

不 同 的 集成 方法 以 不 同 的 方式 构建 集成 模型 。 例 如 ， 集 成 的 每 个 成 员 可 以 使 用 
不 同 的 算法 和 目标 栅 数 训练 成 完全 不 同 的 模型 。Bagging 是 一 种 允许 重复 多 次 使 用 同 
一 种 模型 、 训 练 算法 和 目标 函 数 的 方法 。 

具体 来 说 ，Bagging 涉 及 构造 & 个 不 同 的 数据 集 。 每 个 数据 集 从 原始 数据 集中 重 
复 采样 构成 ， 和 原始 数据 集 具 有 相同 数量 的 样 例 。 这 意味 着 ， 每 个 数据 集 以 高 概率 
缺少 一 些 来 自 原始 数据 集 的 例子 ， 还 包含 若干 重复 的 例子 (如果 所 得 训练 集 与 原始 
数据 集 大 小 相同 ， 那 所 得 数据 集中 大 概 有 原始 数据 集 2/3 的 实例 )。 模型 ; 在 数据 集 
i 上 训练 。 每 个 数据 集 所 含 样 本 的 差异 导致 了 训练 模型 之 间 的 差异 。 图 7.5 是 一 个 例 
子 。 





这 





Original dataset 


First resampled dataset First ensemble member 


Second resampled dataset Second ensemble mempber 


9D9O~> 人 人 @~ 〇 ) 


图 7.5: 描述 Bagging 如 何 工作 的 草图 。 假 设 我 们 在 上 述 数据 集 (包含 一 个 8、 一 个 6 和 一 个 9) 上 
训练 数字 8 的 检测 器 。 假 设 我 们 制作 了 两 个 不 同 的 重 采样 数据 集 。Bagging 训 练 程序 通过 有 放 回 采 
样 构建 这 些 数据 集 。 第 一 个 数据 集 忽 略 9 并 重复 8。 在 这 个 数据 集 上 ， 检 测 器 得 知 数字 顶部 有 一 
个 环 就 对 应 于 一 个 8。 第 二 个 数据 集中 , 我 们 忽略 6 并 重复 9。 在 这 种 情况 下 ， 检 测 需 得 知 数字 底 
部 有 一 个 环 就 对 应 于 一 个 8。 这 些 单独 的 分 类 规则 中 的 每 一 个 都 是 不 可 靠 的 ， 但 如 果 我 们 平均 它们 
的 输出 ， 就 能 得 到 和 鲁 棒 的 检测 器 ， 只 有 当 8 的 两 个 环 都 存在 时 才能 实现 最 大 置信 和 度 。 



































神经 网 络 能 找到 足够 多 的 不 同 的 解 ， 意 味 着 他 们 可 以 从 模型 平均 中 受益 (即使 所 
有 模型 都 在 同一 数据 集 上 训练 )。 神 经 网 络 中 随机 初始 化 的 差异 、 小 批量 的 随机 选择 、 
超 参 数 的 差异 或 不 同和 输出 的 非 确定 性 实现 往往 足以 使 得 集成 中 的 不 同 成员 具 有 部 分 
独立 的 误差 。 

模型 平均 是 一 个 减少 泛 化 误差 的 非常 强大 可 知 的 方法 。 在 作为 科学 论文 算法 的 
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基准 时 ， 它 通常 是 不 鼓励 使 用 的 ， 因 为 任何 机 器 学 习 算法 都 可 以 从 模型 平均 中 大 幅 
获 益 〈 以 增加 计算 和 存储 为 代价 )。 

机 器 学 习 比 赛 中 的 取胜 算法 通常 是 使 用 超过 几 十 种 模型 平均 的 方法 。 最 近 一 个 
突出 的 例子 是 NetHix Grand Prize(Koren, 2009)。 

不 是 所 有 构建 集成 的 技术 都 是 为 了 让 集成 模型 比 单一 模型 更 加 正则 化 。 例 如 , 一 
种 被 称 为 Boosting 的 技术 (Freund and Schapire, 1996b,a) 构建 比 单个 模型 容量 
高 的 集成 模型 。 通 过 向 集成 逐步 添加 神经 网 络 ，Boosting 已 经 被 应 用 于 构建 神经 网 络 
的 集成 (Schwenk and Bengio, 1998)。 通 过 逐渐 增加 神经 网 络 的 隐藏 单元 ,Boosting 也 
可 以 将 单个 神经 网 络 解释 为 一 个 集成 。 


7.12 ”Dropout 


Droponut (Srivastava et wl.，2014) 提供 了 正则 化 一 大 类 模型 的 方法 ， 计 算 方 便 
但 功能 强大 。 在 第 一 种 近似 下 ，Dropout 可 以 被 认为 是 集成 大 量 深层 神经 网 络 的 实 
用 Bagging 方 法 。Bagging 涉 及 训练 多 个 模型 ， 并 在 每 个 测试 样本 上 评估 多 个 模型 。 
当 每 个 模型 都 是 一 个 很 天 的 神经 网 络 时 ， 这 似乎 是 不 切实 际 的 ， 因 为 训练 和 评估 
这 样 的 网 络 需要 花费 很 多 运行 时 间 和 内 在 。 通 党 我 们 只 能 集成 五 至 十 个 神经 网 络 ， 
如 Szegedy et ol. (2014a) 集 成 了 六 个 神经 网 络 赢得 ILSVRC ， 超 过 这 个 数量 就 会 迅速 
变 得 难以 处 理 。Dropout 提 供 了 一 种 廉价 的 Bagging 集 成 近似 ， 能 够 训练 和 评估 指数 
级 数量 的 神经 网 络 。 

具体 而 言 ，Dropout 训 练 的 集成 包括 所 有 从 基础 网 络 除 去 非 输出 单元 后 形成 的 子 
网 络 ， 如 图 7.6 所 示 。 最 先进 的 神经 网 络 基 于 一 系列 仿 射 变换 和 非 线 性 变换 ， 我 们 只 
需 将 一 些 单元 的 输出 乘 零 就 能 有 效 地 删除 一 个 单元 。 这 个 过 程 需要 对 模型 (如 径 向 
基因 数 网 络 ， 单 元 的 状态 和 参考 值 之 间 存 在 一 定 区 别 ) 进行 一 些 修 改 。 为 了 简单 起 
见 ， 我 们 在 这 里 提出 乘 零 的 简单 Dropout 算 法 ， 但 是 它 被 简单 修改 后 ， 可 以 与 从 网 络 
中 移 除 单元 的 其 他 操作 结合 使 用 。 

回想 一 下 Bagging 学 习 ， 我 们 定义 天 个 不 同 的 模型 ， 从 训练 集 有 放 回 采样 构造 
K 个 不 同 的 数据 集 ， 然 后 在 训练 集 ; 上 训练 模型 f。Dropout 的 目标 是 在 指数 级 数量 
的 神经 网 络 上 近似 这 个 过 程 。 具 体 来 说 ， 在 训练 中 使 用 Dropout 时 ， 我 们 会 使 用 基 
于 小 批量 产生 较 小 步 长 的 学 习 算 法 ， 如 随机 梯度 下 降 等 。 我 们 每 次 在 小 批量 中 加 载 
一 个 样本 ， 然 后 随机 抽样 应 用 于 网 络 中 所 有 输入 和 隐藏 单元 的 不 同 二 值 掩 码 。 对 于 
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图 7.6: Dropout 训 练 由 所 有 子 网 络 组 成 的 集成 ， 其 中 子 网 络 通过 从 基本 网 络 中 删除 非 输出 单元 构 
。 我 们 从 具有 两 个 可 见 单元 和 两 个 隐藏 单元 的 基本 网 络 开始 。 这 四 个 单元 有 十 六 个 可 能 的 子 集 。 
右 图 展示 了 从 原始 网 络 中 丢弃 不 同 的 单元 子 集 而 形成 的 所 有 十 六 个 子 网 络 。 在 这 个 小 例子 中 ， 所 
得 到 的 大 部 分 网 络 没有 输入 单元 或 没有 从 输入 连接 到 输出 的 路 径 。 当 层 较 宽 时 ， 丢 弃 所 有 从 输入 
到 输出 的 可 能 路 径 的 概率 变 小 ， 所 以 这 个 问题 不 太 可 能 在 出 现 层 较 宽 的 网 络 中 。 




































































每 个 单元 ， 掩 码 是 独立 采样 的 。 掩 码 值 为 1 的 采样 概率 ( 导致 包含 一 个 单元 ) 是 训 
练 开 始 前 一 个 固定 的 超 参数 。 它 不 是 模型 当前 参数 值 或 输入 样本 的 函数 。 通 常 在 每 
一 个 小 批量 训练 的 神经 网 络 中 ， 一 个 输入 单元 被 包括 的 概率 为 0.8， 一 个 隐藏 单元 被 
包括 的 概率 为 0.5。 然 后 ,我 们 运行 和 之 前 一 样 的 前 向 传播 、 反 向 传播 以 及 学 习 更 新 。 
图 7.7 说 明了 在 Dropout 下 的 前 向 传播 。 

更 正式 地 说 , 假设 一 个 掩 码 向 量 / 指定 被 包括 的 单元 ,，.7(6,A) 是 由 参数 0 和 掩 
码 必定 义 的 模型 代价 。 那 么 Dropout 训 练 的 目标 是 最 小 化 了 ,7(6, 由)。 这 个 期 望 包含 
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图 7.7: 在 使 用 Dropout 的 前 馈 网 络 中 前 向 传播 的 示例 。( 顶 部 ) 在 此 示例 中 , 我 们 使 用 具有 两 个 输入 
单元 ， 具 有 两 个 隐藏 单元 的 隐藏 层 以 及 一 个 输出 单元 的 前 馈 网 络 。( 底 部 ) 为 了 执行 具有 Dropout 的 
前 向 传播 ， 我 们 随机 地 对 向 量 六 进行 采样 ， 其 中 网 络 中 的 每 个 输入 或 隐藏 单 元 对 应 一 项 。A 中 的 
每 项 都 是 二 值 的 且 独 立 于 其 他 项 采样 。 超 参数 的 采样 概率 为 1， 隐 藏 层 的 采样 概率 通常 为 0.5， 输 
入 的 采样 概率 通常 为 0.8。 网 络 中 的 每 个 单元 乘 以 相应 的 掩 码 ， 然 后 正常 地 继续 沿 着 网 络 的 其 余部 
分 前 向 传播 。 这 相当 于 从 图 7.6 中 随机 选择 一 个 子 网 络 并 沿 着 前 向 传播 。 
















































































多 达 指 数 级 的 项 ， 但 我 们 可 以 通过 抽样 六 获得 梯度 的 无 偏 估计 。 
Dropout 训 练 与 Bagging 训 练 不 太一 样 。 在 Bagging 的 情况 下 ， 所 有 模型 都 是 独立 














712 DROPOUT 225 





的 。 在 Dropout 的 情况 下 ， 所 有 模型 共享 参数 ， 其 中 每 个 模型 继承 父 神经 网 络 参 数 
的 不 同 子 集 。 参 数 共 享 使 得 在 有 限 可 用 的 内 存 下 表示 指数 级 数量 的 模型 变 得 可 能 。 
在 Bagging 的 情况 下 ， 每 一 个 模型 在 其 相应 训练 集 上 训练 到 收 但 。 在 Dropout 的 情况 
下 ， 通 常 大 部 分 模型 都 没有 显 式 地 被 训练 ， 因 为 通常 父 神经 网 络 会 很 大 ， 以 致 于 到 
宇宙 毁灭 都 不 可 能 采样 完 所 有 的 子 网 络 。 取 而 代 之 的 是 ， 在 单个 步骤 中 我 们 训练 一 
小 部 分 的 子 网 络 ， 参 数 共享 会 使 得 剩余 的 子 网 络 也 能 有 好 的 参数 设 定 。 这 些 是 仅 有 
的 区 别 。 除 了 这 些 ，Dropout 与 Bagging 算 法 一 样 。 例 如 ， 每 个 子 网 络 中 遇 到 的 训练 
集 确实 是 有 放 回 采样 的 原始 训练 集 的 一 个 子 集 。 

Bagging 集 成 必须 根据 所 有 成 员 的 累积 投票 做 一 个 预测 。 在 这 种 背景 下 ， 我 们 
将 这 个 过 程 称 为 推断 (inference )。 目 前 为 止 ， 我 们 在 介绍 Bagging 和 Dropout 时 没 
有 要 求 模型 具有 明确 的 概率 。 现 在 ， 我 们 假定 该 模型 的 作用 是 输出 一 个 概率 分 布 。 
在 Bagging 的 情况 下 ， 每 个 模型 ; 产生 一 个 概率 分 布 pt(y | 四 。 集 成 的 预测 由 这 些 
分 布 的 算术 平均 值 给 出 ， 





3 人 | 中 (7.52) 


在 Dropout 的 情况 下 ， 通 过 掩 码 A 定义 每 个 子 模型 的 概率 分 布 ply | 史 由 )。 所 
有 捧 码 的 算术 平均 值 由 下 式 给 出 


> p(Apy | z 用 )， (7.53) 
几 
其 中 p(A) 是 训练 时 采样 六 的 概率 分 布 。 
因为 这 个 求 和 包含 多 达 指 数 级 的 项 ， 除 非 该 模型 的 结构 允许 某 种 形式 的 简化 ， 
否则 是 不 可 能 计算 的 。 目 前 为 止 ， 无 法 得 知 深度 神经 网 络 是 否 允 许 某 种 可 行 的 简化 。 
相反 ， 我 们 可 以 通过 采样 近似 推 晰 ， 即 平均 许多 手 码 的 输出 。 即 使 是 10 - 20 个 捧 
码 就 足以 获得 不 错 的 表现 。 
然而 ， 一 个 更 好 的 方法 能 不 错 地 近似 整个 集成 的 预测 ， 且 只 需 一 个 前 向 传播 
的 代价 。 要 做 到 这 一 点 ， 我 们 改 用 集成 成 员 预 测 分 布 的 几何 平均 而 不 是 算术 平均 。 
Warde-Farley et ol. (2014) 提出 的 论点 和 经 验证 据 表 明 ， 在 这 个 情况 下 几何 平均 与 
算术 平均 表现 得 差不多 。 
多 个 概率 分 布 的 几何 平均 不 能 保证 是 一 个 概率 分 布 。 为 了 保证 结果 是 一 个 概率 
分 布 ， 我 们 要 求 没 有 子 模型 给 某 一 事件 分 配 概 率 0， 并 重新 标准 化 所 得 分 布 。 通 过 几 
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何平 均 直 接 定 义 的 非 标准 化 概率 分 布 由 下 式 给 出 


六 asemble(V | 2) 二 2 咱 [zt ， 几 )， (7.54) 


其 中 qd 是 可 被 丢弃 的 单元 数 。 这 里 为 简化 介绍 ， 我 们 使 用 均匀 分 布 的 4， 但 非 均匀 
分 布 也 是 可 以 的 。 为 了 作出 预测 ， 我 们 必须 重新 标准 化 集成 : 











Donesatiie(y | 2) 
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涉及 Dropout 的 一 个 重要 观点 (Hinton et al., 2012c) 是 ,我 们 可 以 通过 评估 模型 
中 p(y | z) 来 近似 peasemble: 该 模型 具有 所 有 单元 ， 但 我 们 将 单元 ; 的 输出 的 权重 乘 
以 单元 ; 的 被 包含 概率 。 这 个 修改 的 动机 是 得 到 从 该 单元 输出 的 正确 期 望 值 。 我 们 
把 这 种 方法 称 为 权重 比例 推断 规则 ( weight scaling inference rule )。 目 前 还 没有 在 
深度 非 线 性 网 络 上 对 这 种 近似 推断 规则 的 准确 性 作 任 何 理论 分 析 ， 但 经 验 上 表现 得 
很 好 。 

因为 我 们 通常 使 用 的 包含 概率 ， 权 重 比例 规则 一 般 相 当 于 在 训练 结束 后 将 权 
重 除 2， 然 后 像 平常 一 样 使 用 模型 。 实 现 相 同 结果 的 另 一 种 方法 是 在 训练 期 间 将 单元 
的 状态 乘 2。 无 论 哪 种 方式 ,我 们 的 目标 是 确保 在 测试 时 一 个 单元 的 期 望 总 输入 与 在 
训练 时 该 单元 的 期 望 总 输入 是 大 致 相同 的 〈 即 使 近 半 单位 在 训练 时 丢失 )。 

对 许多 不 具有 非 线 性 隐藏 单元 的 模型 族 而 言 ， 权 重 比例 推 新 规则 是 精确 的 。 举 
个 简单 的 例子 ， 考 虑 softmax 困 数 回归 分 类 ， 其 中 由 疝 量 v 表示 7” 个 输入 变量 : 

















Pty=y|v) = softmax( Tv 十 中， (7.56) 





我 们 可 以 根据 二 值 向 量 @ 逐 元 素 的 乘法 将 一 类 子 模型 进行 索引 : 
Pty=y|vidg =softmax(TW (daov)+ 中， (7.57) 


集成 预测 噩 被 定义 为 重新 标准 化 所 有 集成 成 员 预 测 的 几何 平均 : 


5 e 二 V 
PEis( 交 二 V/ | V) 一 过 引 C | ) ) (7.58) 
福 水 0 (y 二 W | v) 














已 able(y 二 4/ | V) 一 22 ] 书 (y 二 V | V， qg). (7.59) 


dE{0,1}m 
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为 了 证 明 权 重 比例 推断 规则 是 精确 的 ， 我 们 简化 忆 。semure: 























已 able(y = 二: 示 | V) 人 ] 忆 (7 人 | V) gd) (7.60) 

dE{0,1}m 
= 2 ]] sofmax(W (daov)+by (7.61) 

adE{0,1}m 
T7.(d 2 
= 站 三 
de{0,1jn 2y exP(IwdOYV) 二 by 
TILeeaemp(W(deow+b 
0 小 六 exP( yw:(do v) 二 py) 
由 于 尸 将 被 标准 化 ， 我 们 可 以 放心 地 忽略 那些 相对 y 不 变 的 乘法 : 
已 mble(y 二 V | V) CC 2m ] exp( 酌 ,:(dO vV) 斗 D) (7.64) 
dE{0,1}m 
| 

-om 人 ( 寺 >， waaw+o (7.65) 

deE{0,1} 

| 

一 exp (5 TFT v 二 bo (7.66) 





将 其 代入 式 (7.58) ， 我 们 得 到 了 一 个 权重 为 去 例 的 softmax 函数 分 类 器 。 

权重 比例 推断 规则 在 其 他 设 定 下 也 是 精确 的 ， 包 括 条 件 正 态 输出 的 回归 网 络 以 
及 那些 隐藏 层 不 包含 非 线 性 的 深度 网 络 。 然 而 ， 权 重 比例 推断 规则 对 具有 非 线性 的 
深度 模型 仅仅 是 一 个 近似 。 虽 然 这 个 近似 尚未 有 理论 上 的 分 析 ， 但 在 实践 中 往往 效 
果 很 好 。Goodfellow et o!. (2013b) 实验 发 现 ， 在 对 集成 预测 的 近似 方面 ,权重 比 例 
推断 规则 比 蒙特 卡 罗 近 似 更 好 〈 就 分 类 精度 而 言 ) 即使 允许 蒙特 卡 罗 近 似 采样 多 达 
1000 子 网 络 时 也 比 不 过 权重 比例 推断 规则 。Gal and Ghahramani (2015) 发 现 一 些 
模型 可 以 通过 二 十 个 样本 和 蒙特 卡 罗 近 似 获得 更 好 的 分 类 精度 。 似 乎 推 疡 近似 的 最 
佳 选择 是 与 问题 相关 的 。 

Srivastava et ul. (2014) 显示 ，Dropout 比 其 他 标准 的 计算 开销 小 的 正则 化 方法 
(如 权重 衰减 、 过 滤器 范 数 约 束 和 稀 玻 激活 的 正则 化 ) 更 有 效 。Dropout 也 可 以 与 其 
他 形式 的 正则 化 合并 ， 得 到 进一步 的 提升 。 

计算 方便 是 Dropout 的 一 个 优点 。 训 练 过 程 中 使 用 Dropout 产 生 ”个 随机 二 进 制 
数 与 状态 相 乘 ， 每 个 样本 每 次 更 新 只 需 O(n) 的 计算 复杂 度 。 根 据 实现 ， 也 可 能 需要 
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O(m) 的 存储 空间 来 持续 保存 这 些 二 进 制 数 ( 直到 反 向 传播 阶段 )。 使 用 训练 好 的 模 
型 推 基 时 ， 计 算 每 个 样本 的 代价 与 不 使 用 Dropout 是 一 样 的 ， 尽 管 我 们 必须 在 开始 运 
行 推断 前 将 权重 除 以 2。 

Dropout 的 另 一 个 显著 优点 是 不 怎么 限制 适用 的 模型 或 训练 过 程 。 几 乎 在 所 有 
使 用 分 布 式 表 示 且 可 以 用 随机 梯度 下 降 训 练 的 模型 上 都 表现 很 好 。 包 括 前 人 馈 神 经 网 
络 、 概 率 模型 ， 如 受 限 玻 尔 效 曼 机 (Srivastava et ol., 2014)， 以 及 循环 神经 网 络 (Bayer 
and Osendorfer, 2014; Pascanu et wL.， 2014a)。 许 多 效果 差不多 的 其 他 正则 化 策略 对 
模型 结构 的 限制 更 严格 。 

虽然 Dropout 在 特定 模型 上 每 一 步 的 代价 是 微不足道 的 ， 但 在 一 个 完整 的 系统 
上 使 用 Dropout 的 代价 可 能 非常 显 车。 因为 Dropout 是 一 个 正则 化 技术 ， 它 减少 了 模 
型 的 有 效 容量 。 为 了 抵消 这 种 影响 ， 我 们 必须 增 大 模型 规模 。 不 出 意外 的 话 ， 使 
用 Dropout 时 最 佳 验证 集 的 误差 会 低 很 多 , 但 这 是 以 更 大 的 模型 和 更 多 训练 算法 的 迭 
代 次 数 为 代价 换 来 的 。 对 于 非常 大 的 数据 集 , 正则 化 带 来 的 泛 化 误差 减少 得 很 小 。 在 
这 些 情况 下 ， 使 用 Dropout 和 更 大 模型 的 计算 代价 可 能 超过 正则 化 带 来 的 好 处 。 

只 有 极 少 的 训练 样本 可 用 时 ，Dropout 不 会 很 有 效 。 在 只 有 不 到 5000 的 样本 
的 Alternative Splicing 数 据 集 上 (Xiong et al., 2011) ， 贝 叶 斯 神经 网 络 (Neal, 1996) 
比 Dropout 表 现 得 更 好 (Srivastava et ol., 2014)。 当 有 其 他 未 分 类 的 数据 可 用 时 ， 无 
监督 特征 学 习 也 比 Dropout 更 有 优势 。 

Wasger et ol. (2013) 表明 ， 当 Dropout 作 用 于 线性 回归 时 ， 相 当 于 每 个 输入 特征 
具有 不 同 权重 衰减 系数 的 情 ?权重 衰减 。 每 个 特征 的 权重 衰减 系数 的 大 小 是 由 其 方差 
来 确定 的 。 其 他 线性 模型 也 有 类 似 的 结果 。 而 对 于 次 度 模型 而 言 ，Dropout 与 权重 误 
减 是 不 等 同 的 。 

使 用 Dropout 训 练 时 的 随机 性 不 是 这 个 方法 成 功 的 必要 条 件 。 它 仅仅 是 近似 所 有 
子 模型 总 和 的 一 个 方法 。Wang and Manning (2013) 导出 了 近似 这 种 边缘 分 布 的 解 
析 解 。 他 们 的 近似 被 称 为 快速 Dropout ( fast dropout )， 减 小 梯度 计算 中 的 随机 性 
而 获得 更 快 的 收敛 速度 。 这 种 方法 也 可 以 在 测试 时 应 用 , 能 够 比 权重 比例 推 朵 规则 更 
合理 地 (但 计算 也 更 昂贵 ) 近似 所 有 子 网 络 的 平均 。 快 速 Dropout 在 小 神经 网 络 上 
的 性 能 几乎 与 标准 的 Dropout 相 当 ， 但 在 大 问题 上 尚未 产生 显著 改善 或 尚未 应 用 。 

随机 性 对 实现 Dropout 的 正则 化 效果 不 是 必要 的 ， 同 时 也 不 是 充分 的 。 为 了 证 明 
这 一 点 ，Warde-Farley et ww/. (2014) 使 用 一 种 被 称 为 Dropout Boosting 的 方法 设 
计 了 一 个 对 照 实 验 ， 具 有 与 传统 Dropout 方 法 完全 相同 的 噪声 撼 码 ， 但 缺乏 正则 化 效 
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果 。Dropout Boosting 训 练 整个 集成 以 最 大 化 训练 集 上 的 似 然 。 从 传统 Dropout 类 
似 于 Bagging 的 角度 来 看 ， 这 种 方式 类 似 于 Boosting。 如 预期 一 样 ， 和 单一 模型 训 
练 整个 网 络 相 比 ，Dropout Boosting 几 乎 没有 正则 化 效果 。 这 表明 ， 使 用 Bagging 解 
释 Dropout 比 使 用 稳健 性 噪声 解释 Dropout 更 好 。 只 有 当 随 机 抽样 的 集成 成 员 相 互 独 
立地 训练 好 后 ， 才 能 达到 Bagging 集 成 的 正则 化 效果 。 

Dropout 启 发 其 他 以 随机 方法 训练 指数 量 级 的 共享 权重 的 集成 。DropConnect 是 
Dropout 的 一 个 特殊 情况 ， 其 中 一 个 标量 权重 和 单个 隐藏 单元 状态 之 间 的 每 个 乘积 
被 认为 是 可 以 丢弃 的 一 个 单元 (Wan et al.,， 2013)。 随 机 池 化 是 构造 卷 积 神经 网 络 集 
成 的 一 种 随机 化 池 化 的 形式 ( 见 第 9.3 节 )， 其 中 每 个 卷 积 网 络 参与 每 个 特征 图 的 不 同 
空间 位 置 。 目 前 为 止 ，Dropout 仍 然 是 最 广泛 使 用 的 隐 式 集成 方法 。 

一 个 关于 Dropout 的 重要 见解 是 ,通过 随机 行为 训练 网 络 并 平均 多 个 随机 决定 进 
行 预测 ， 实 现 了 一 种 参数 共享 的 Bagging 形 式 。 早 些 时 候 ， 我 们 将 Dropout 描 述 为 通 
过 包括 或 排除 单元 形成 模型 集成 的 Bagging。 然 而 ， 这 种 参数 共享 策略 不 一 定 要 基于 
包括 和 排除 。 原 则 上 ， 任 何 一 种 随机 的 修改 都 是 可 接受 的 。 在 实践 中 ， 我 们 必须 选 
择 让 神经 网 络 能 够 学 习 对 抗 的 修改 类 型 。 在 理想 情况 下 ， 我 们 也 应 该 使 用 可 以 快速 
近似 推 新 的 模型 族 。 我 们 可 以 认为 由 向 量 / 参数 化 的 任何 形式 的 修改 ,是 对 六 所 有 
可 能 的 值 训练 p(y | z, 由) 的 集成 。 注 意 ， 这 里 不 要 求 凡 具有 有 限 数量 的 值 。 例 如 ， 
风 可 以 是 实 值 。Srivastava et o. (2014) 表明 ， 权 重 乘 以 几 ~ W(LDD 比 基 于 二 值 掩 
码 Dropout 表 现 得 更 好 。 由 于 下 [mw = 1， 标 准 网 络 自动 实现 集成 的 近似 推 亲 ， 而 不 需 
要 权重 比 侈 推断 规则 。 

目前 为 止 ， 我 们 将 Dropout 介 绍 为 一 种 纯粹 高 效 近 似 Bagging 的 方法 。 然 而 ， 还 
有 比 这 更 进一步 的 Dropout 观 点 。Dropout 不 仅仅 是 训练 一 个 Bagging 的 集成 模型 ， 并 
且 是 共享 隐藏 单元 的 集成 模型 。 这 意味 着 无 论 其 他 隐藏 单元 是 否 在 模型 中 , 每 个 隐藏 
单元 必须 都 能 够 表现 良好 。 隐 藏 单元 必须 准备 好 进行 模型 之 间 的 交换 和 互 换 。Hinton 
et dl (2012d) 由 生物 学 的 想法 受到 启发 : 有 性 繁殖 涉及 到 两 个 不 同 生物 体 之 间 交 换 
基因 ， 进 化 产生 的 压力 使 得 基因 不 仅 是 良好 的 而 且 要 准备 好 不 同 有 机 体 之 间 的 交换 。 
这 样 的 基因 和 这 些 特点 对 环境 的 变化 是 非常 稳健 的 ， 因 为 它们 一 定 会 正确 适应 任何 
一 个 有 机 体 或 模型 不 寻常 的 特性 。 因 此 Dropout 正 则 化 每 个 隐藏 单元 不 仅 是 一 个 很 好 
的 特征 ， 更 要 在 许多 情况 下 是 良好 的 特征 。Warde-Farley et ol. (2014) 将 Dropout 与 
大 集成 的 训练 相 比 并 得 出 结论 : 相 比 独立 模型 集成 获得 泛 化 误差 改进 ，Dropout 会 带 
来 额外 的 改进 。 

Dropout 强 大 的 大 部 分 原因 来 自 施 加 到 隐藏 单元 的 掩 码 噪 声 ， 了 解 这 一 事实 是 重 
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要 的 。 这 可 以 看 作 是 对 输入 内 容 的 信息 高 度 智 能 化 、 自 适应 破坏 的 一 种 形式 ， 而 不 
是 对 输入 原始 值 的 破坏 。 例 如 ， 如 果 模 型 学 得 通过 鼻 检 测 脸 的 隐藏 单元 疡 ， 那 么 丢 
失 访 对 应 于 的 除 图 像 中 有 曙 子 的 信息 。 模 型 必须 学 习 另 一 种 六 ， 要 么 是 鼻子 存在 的 
宛 余 编 码 ， 要 么 是 像 嘴 这 样 的 脸 部 的 另 一 特征 。 传 统 的 噪声 注入 技术 ， 在 输入 端 加 
非 结构 化 的 噪声 不 能 够 随机 地 从 脸 部 图 像 中 抹 去 关于 曙 子 的 信息 ， 除 非 噪声 的 幅度 
大 到 几乎 能 抹 去 图 像 中 所 有 的 信息 。 破 坏 提 取 的 特征 而 不 是 原始 值 ， 让 破坏 过 程 充 
分 利用 该 模型 迄今 获得 的 关于 输入 分 布 的 所 有 知识 。 

Dropout 的 另 一 个 重要 方面 是 噪声 是 乘 性 的 。 如 果 是 固定 规模 的 加 性 噪声 ， 那 么 
加 了 噪声 e 的 整流 线性 隐藏 单元 可 以 简单 地 学 会 使 访 变 得 很 大 (使 增加 的 噪声 e 变 
得 不 显著 )。 乘 性 噪声 不 允许 这 样 病态 地 解决 噪声 鲁 棒 性 问题 。 

另 一 种 深度 学 习 算 法 一 一 批 标准 化 ,在 训练 时 向 隐藏 单元 引入 加 性 和 乘 性 噪声 
重新 参数 化 模型 。 批 标准 化 的 主要 目的 是 改善 优化 ， 但 噪声 具有 正则 化 的 效果 ， 有 
时 没 必要 再 使 用 Dropout。 批 标准 化 将 会 在 第 8.7.1 节 中 被 更 详细 地 讨论 。 
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在 许多 情况 下 ， 神 经 网 络 在 独立 同 分 布 的 测试 集 上 进行 评估 已 经 达到 了 人 类 表 
现 。 因 此 ， 我 们 自然 要 怀 蜂 这 些 模型 在 这 些 任务 上 是 和 否 获得 了 真正 的 人 类 层次 的 理 
解 。 为 了 探索 网 络 对 底层 任务 的 理解 层次 ， 我 们 可 以 探索 这 个 模型 错误 分 类 的 例子 。 
Szegedy et wo. (2014b) 发 现 ， 在 精度 达到 人 类 水 平 的 神经 网 络 上 通过 优化 过 程 故 意 
构造 数据 点 ， 其 上 的 误差 率 接近 100% ， 模 型 在 这 个 输入 点 允 的 输出 与 附近 的 数据 
点 & 非常 不 同 。 在 许多 情况 下 ，z 与 z 非常 近似 ， 人 类 观察 者 不 会 察觉 原始 样本 
和 对 抗 样本 ( adversarial example ) 之 间 的 差异 ， 但 是 网 络 会 作出 非常 不 同 的 预测 。 
见 图 7.8 中 的 例子 。 

对 抗 样本 在 很 多 领域 有 很 多 影响 ， 例 如 计算 机 安全 ， 这 超出 了 本 章 的 范围 。 然 
而 ， 它 们 在 正则 化 的 背景 下 很 有 意思 ， 因 为 我 们 可 以 通过 对 抗 训练 (adversarial 
training ) 减少 原 有 独立 同 分 布 的 测试 集 的 错误 率 一 一 在 对 抗 扰 动 的 训练 集 样本 上 训 
练 网 络 (Szegedy et ol., 2014b; Goodfellow et al., 2014b)。 

Goodfellow et ol. (2014b) 表明 ， 这 些 对 抗 样本 的 主要 原因 之 一 是 过 度 线性 。 神 
经 网 络 主要 是 基于 线性 块 构 建 的 。 因 此 在 一 些 实验 中 ， 它 们 实现 的 整体 冰 数 被 证 明 
是 高 度 线 性 的 。 这 些 线性 函数 很 容易 优化 。 不 地 的 是 ， 如 果 一 个 线性 困 数 具有 许多 
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7.8: 在 ImnageNet 上 应 用 GoogLeNet (Szegedy et ol, 2014a) 的 对 抗 样本 生成 的 演示 。 通 过 添 
加 一 个 不 可 察觉 的 小 向 量 〈 其 中 元 素 等 于 代价 天 数 相对 于 输入 的 梯度 元 素 的 符号 )， 我 们 可 以 改变 
GoogLeNet 对 此 图 像 的 分 类 结果 。 经 Goodfellow et al. (2014b) 许可 转载 。 























输入 ， 那 么 它 的 值 可 以 非常 迅速 地 改变 。 如 果 我 们 用 e 改变 每 个 输入 ， 那 么 权重 为 
ua 的 线性 函数 可 以 改变 ellwl, 之 多 ， 如 果 ww 是 高 维 的 这 会 是 一 个 非常 大 的 数 。 对 
抗 训练 通过 鼓励 网 络 在 训练 数据 附近 的 局 部 区 域 恒 定 来 限制 这 一 高 度 敏感 的 局 部 线 
性 行为 。 这 可 以 被 看 作 是 一 种 明确 地 向 监督 神经 网 络 引 入 局 部 恒定 先 验 的 方法 。 

对 抗 训 练 有 助 于 体现 积极 正则 化 与 大 型 冰 数 族 结合 的 力量 。 纯 粹 的 线性 模型 ， 
如 逻辑 回归 ， 由 于 它们 被 限制 为 线性 而 无 法 抵抗 对 抗 样本 。 神 经 网 络 能 够 将 冰 数 从 
接近 线性 转化 为 局 部 近似 恒定 ， 从 而 可 以 灵活 地 捕获 到 训练 数据 中 的 线性 趋势 同时 
学 习 抵 抗 局 部 扰动 。 

对 抗 样本 也 提供 了 一 种 实现 半 监 督学 习 的 方法 。 在 与 数据 集中 的 标签 不 相关 联 
的 点 z 处 ， 模 型 本 身 为 其 分 配 一 些 标签 。 模型 的 标记 少 未 必 是 真正 的 标签 ， 但 如 
果 模 型 是 高 品质 的 ,那么 少 提供 正确 标签 的 可 能 性 很 大 。 我 们 可 以 搜索 一 个 对 抗 样 
本 必 ， 导 致 分 类 融和 输出 一 个 标签 Y 上 且 光 入 放 不 使 用 真正 的 标签 ， 而 是 由 训练 好 
的 模型 提供 标签 产生 的 对 抗 样本 被 称 为 虚拟 对 抗 样本 ( virtual adversarial example ) 
(Miyato et oL., 2015)。 我 们 可 以 训练 分 类 器 为 和 必 分 配 相同 的 标签 。 这 鼓励 分 类 
器 学 习 一 个 沿 着 未 标签 数据 所 在 流 形 上 任意 微小 变化 都 很 鲁 棒 的 函数 。 驱 动 这 种 方 
法 的 假设 是 ,不同 的 类 通常 位 于 分 离 的 流 形 上 ， 并 且 小 扰动 不 会 使 数据 点 从 一 个 类 
的 流 形 跳 到 另 一 个 类 的 流 形 上 。 
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如 第 5.11.3 节 所 述 ， 许 多 机 器 学 习 通过 假设 数据 位 于 低 维 流 形 附 近来 克服 维 数 
灾难 。 

一 个 利用 流 形 假设 的 早期 尝试 是 切面 距离 (tangent distance ) 算法 (Simard 
et dl., 1993, 1998)。 它 是 一 种 非 参 数 的 最 近邻 算法 ， 其 中 使 用 的 度量 不 是 通用 的 欧 几 
里 德 距 离 ， 而 是 根据 邻近 流 形 关于 聚集 概率 的 知识 导出 的 。 这 个 算法 假设 我 们 尝试 
分 类 的 样本 和 同一 流 形 上 的 样本 具有 相同 的 类 别 。 由 于 分 类 器 应 该 对 局 部 因素 〈 对 
应 于 流 形 上 的 移动 ) 的 变化 保持 不 变 ， 一 种 合理 的 度量 是 将 点 m 和 m 各 自 所 在 流 
形 Mi 和 Ma 的 距离 作为 点 m 和 营 之 间 的 最 近邻 距离 。 然 而 这 可 能 在 计算 上 是 困 
难 的 〈 它 需要 解决 一 个 寻找 Ma 和 Ma2 最 近 点 对 的 优化 问题 )， 一 种 局 部 合理 的 廉价 
替代 是 使 用 玉 点 处 切 平面 近似 AM ， 并 测量 两 条 切 平面 或 一 个 切 平面 和 点 之 间 的 距 
离 。 这 可 以 通过 求解 一 个 低 维 线性 系 统 ( 就 流 形 的 维 数 而 言 ) 来 实现 。 当 然 ， 这 种 算 
法 需要 指定 那些 切 向 量 。 

受 相 关 启 发 ， 正 切 传播 (tangent prop ) 算法 (Simnard et al., 1992) (图 7.9 ) 训 
练 带 有 额外 惩罚 的 神经 网 络 分 类 器 ， 使 神经 网 络 的 每 个 输出 /z) 对 已 知 的 变化 因素 
是 局 部 不 变 的 。 这 些 变化 因素 对 应 于 党 着 的 相同 样本 聚集 的 流 形 的 移动 。 这 里 实现 
局 部 不 变性 的 方法 是 要 求 V。j(z) 与 已 知 流 形 的 切 向 w2) 正 交 ， 或 者 等 价 地 通过 正 
则 化 惩罚 9 使 了 在 z 的 vv) 方向 的 导数 较 小 : 


naJ=((woyoroo)) (7.67) 












































这 个 正则 化 项 当然 可 以 通过 适当 的 超 参数 缩放 ， 并 且 对 于 大 多 数 神经 网 络 ， 我 们 需 
要 对 许多 输出 求 和 (此 处 为 描述 简单 ，jz) 为 唯一 输出 )。 与 切面 距离 算法 一 样 ， 我 
们 根据 切 向 量 推导 先 验 , 通常 从 变换 ( 如 平移 、 旋 转 和 缩放 图 像 ) 的 效果 获得 形式 知 
识 。 正 切 传播 不 仅 用 于 监督 学 习 (Simard et al., 1992) ， 还 在 强化 学 习 (Thrun, 1995) 
中 有 所 应 用 。 

正切 传播 与 数据 集 增强 密切 相关 。 在 这 两 种 情况 下 , 该 算法 的 用 户 通 过 指定 一 组 
应 当 不 会 改变 网 络 输出 的 转换 ， 将 其 先 验 知识 编码 至 算法 中 。 不 同 的 是 在 数据 集 增 
强 的 情况 下 ， 网 络 显 式 地 训练 正确 分 类 这 些 施加 大 量变 换 后 产生 的 不 同 输入 。 正 切 
传播 不 需要 显 式 访问 一 个 新 的 输入 点 。 取 而 代 之 ， 它 解析 地 对 模型 正则 化 从 而 在 指 
定 转换 的 方向 抵抗 扰 劲 。 虽 然 这 种 解析 方法 是 聪明 优雅 的 ， 但 是 它 有 两 个 主要 的 缺 
点 。 首 先 , 模型 的 正则 化 只 能 抵抗 无 穷 小 的 扰动 。 显 式 的 数据 集 增 强 能 抵抗 较 大 的 扰 
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图 7.9: 正切 传播 算法 (Simard et ol.，1992) 和 流 形 正切 分 类 器 主要 思想 的 示意 图 (Rifai et al， 
2011lc)， 它 们 都 正则 化 分 类 器 的 输出 函数 六 z)。 每 条 曲线 表示 不 同类 别 的 流 形 ， 这 里 表示 从 和 二 
维 空间 中 的 一 维 流 形 。 在 一 条 曲线 上 ， 我 们 选择 单个 点 并 绘制 一 个 与 类 别 流 形 〈 平行 并 接触 流 形 ) 
相 切 的 向 量 以 及 与 类 别 流 形 〈 与 流 形 正 交 ) 垂直 的 向 量 。 在 多 维 情况 下 ,可 以 存在 许多 切线 方向 和 
法 线 方向 。 我 们 希望 分 类 函数 在 垂直 于 流 形 方向 上 快速 改变 ， 并 且 在 类 别 流 形 的 方向 上 保持 不 变 。 
正切 传播 和 流 形 正 切 分 类 器 都 会 正则 化 f(z) ， 使 其 不 随 z 沿 流 形 的 移动 而 剧烈 变化 。 正 切 传播 需 
要 用 户 手 动 指定 正切 方向 的 计算 函数 (例如 指定 小 平移 后 的 图 像 保留 在 相同 类 别 的 流 形 中 )， 而 流 
形 正 切 分 类 器 通过 训练 自 编码 器 拟 合 训练 数据 来 估计 流 形 的 正切 方向 。 我 们 将 在 第 十 四 章 中 讨论 
使 用 自 编码 器 来 估计 流 形 。 
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动 。 其 次 , 我 们 很 难 在 基于 整流 线性 单元 的 模型 上 使 用 无 限 小 的 方法 。 这 些 模型 只 能 
通过 关闭 单元 或 缩小 它们 的 权重 才能 缩小 它们 的 导数 。 它 们 不 能 像 sigmoiqd 或 tanh 单 
元 一 样 通过 较 大 权重 在 高 值 处 人 饱和 以 收缩 导数 。 数 据 集 增强 在 整流 线性 单元 上 工作 
得 很 好 ， 因 为 不 同 的 整流 单元 会 在 每 一 个 原始 输入 的 不 同 转换 版 本 上 被 激活 。 

正切 传播 也 和 双 反 回 传 播 (Drucker and LeCun,， 1992) 以 及 对 抗 训练 (Szegedy 
et ul.， 2014b; Goodfellow et al., 2014b) 有 关联 。 双 反 辐 传播 正则 化 使 Jacobian 矩 阵 
偏 小 , 而 对 抗 训练 找到 原 输入 附近 的 点 , 训练 模型 在 这 些 点 上 产生 与 原来 输入 相同 的 
输出 。 正 切 传播 和 手动 指定 转换 的 数据 集 增 强 都 要 求 模型 在 输入 变化 的 某 些 特定 的 
方向 上 保持 不 变 。 双 反 向 传播 和 对 抗 训练 都 要 求 模型 对 输入 所 有 方向 中 的 变化 〈 只 
要 该 变化 较 小 ) 都 应 当 保持 不 变 。 正 如 数据 集 增 强 是 正切 传播 非 无 限 小 的 版 本 ， 对 
抗 训练 是 双 反 向 传播 非 无 限 小 的 版 本 。 

流 形 正切 分 类 器 (Rifai et al., 2011d) 无 需 知道 切线 向 量 的 先 验 。 我 们 将 在 第 十 
四 章 看 到 ， 自 编码 句 可 以 估算 流 形 的 切 向 量 。 流 形 正 切 分 类 需 使 用 这 种 技术 来 避免 
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用 户 指定 切 向 量 。 如 图 14.10 所 示 ， 这 些 佑 计 的 切 向 量 不 仅 对 图 像 经 典 几何 变换 〈 如 
转化 、 旋 转 和 缩放 ) 保持 不 变 ， 还 必须 掌握 对 特定 对 象 (如 正在 移动 的 身体 某 些 部 
分 ) 保持 不 变 的 因素 。 因 此 根据 流 形 正切 分 类 天 提出 的 算法 相当 简单 : (1 ) 使 用 自 
编码 融通 过 无 监督 学 习 来 学 习 流 形 的 结构 ， 以 及 〈2 ) 如 正切 传播 ( 式 (7.67) ) 一 样 
使 用 这 些 切面 正则 化 神经 网 络 分 类 器 。 

在 本 章 中 , 我 们 已 经 摘 述 了 大 多 数 用 于 正则 化 神经 网 络 的 通用 策略 。 正则 化 是 机 
天 学 习 的 中 心 主题 ， 因 此 我 们 将 不 时 在 其 余 各 音 中 重新 回顾 。 机 器 学 习 的 另 一 个 中 
心 主题 是 优化 ,我们 将 在 下 一 章 描述 。 
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深度 学 习 算 法 在 许多 情况 下 都 涉及 到 优化 。 例 如 ,模型 中 的 进行 推 新 (如 PCA ) 
涉及 到 求解 优化 问题 。 我 们 经 常 使 用 解析 优化 去 证 明 或 设计 算法 。 在 深度 学 习 涉 及 
到 的 诸多 优化 问题 中 ， 最 难 的 是 神经 网 络 训练 。 甚 至 是 用 几 百 台 机 天 投入 几 天 到 几 
个 月 来 解决 单个 神经 网 络 训练 问题 ， 也 是 很 常见 的 。 因 为 这 其 中 的 优化 问题 很 重要 ， 
代价 也 很 高 ， 因 此 研究 者 们 开发 了 一 组 专门 为 此 设计 的 优化 技术 。 本 章 会 介绍 神经 
网 络 训练 中 的 这 些 优 化 技术 。 

如 果 你 不 熟悉 基于 梯度 优化 的 基本 原则 ， 我 们 建议 回顾 第 四 章 。 该 章 简要 概述 
了 一 般 的 数值 优化 。 

本 章 主 要 关注 这 一 类 特定 的 优化 问题 : 寻找 神经 网 络 上 的 一 组 参数 0， 它 能 显 
著 地 降低 代价 函数 7(8)， 该 代价 函数 通常 包括 整个 训练 集 上 的 性 能 评估 和 额外 的 正 
则 化 项 。 

首先 ， 我 们 会 介绍 在 机 天 学 习 任 务 中 作为 训练 算法 使 用 的 优化 与 纯 优 化 有 哪些 
不 同 。 接 下 来 ,我 们 会 介绍 导致 神经 网 络 优化 困难 的 几 个 具体 挑 成 。 然 后 ,我 们 会 介 
绍 几 个 实用 算法 ， 包 括 优 化 算法 本 身 和 初始 化 参数 的 策略 。 更 高 级 的 算法 能 够 在 训 
练 中 自 适 应 调整 学 习 率 ， 或 者 使 用 代价 函数 二 阶 导 数 包 含 的 信息 。 最 后 ， 我 们 会 介 
绍 几 个 将 简单 优化 算法 结合 成 高 级 过 程 的 优化 策略 ， 以 此 作为 总 结 。 

















8.1 学 习 和 纯 优化 有 什么 不 同 


用 于 深度 模型 训练 的 优化 算法 与 传统 的 优化 算法 在 几 个 方面 有 所 不 同 。 机 顺 学 

习 通 常 是 间接 作用 的 。 在 大 多 数 机 融 学 习 问 题 中 ， 我 们 关注 某 些 性 能 度量 已 ， 其 定 

义 于 测试 集 上 并 且 可 能 是 不 可 解 的 。 因 此 ， 我 们 只 是 间接 地 优化 已 。 我 们 希望 通过 
235 
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降低 代价 函数 7(6) 来 提高 已。 这 一 点 与 纯 优 化 不 同 , 纯 优 化 最 小 化 目标 了 本身 。 训 
练 深度 模型 的 优化 算法 通常 也 会 包括 一 些 针 对 机 顺 学 习 目标 函数 的 特定 结构 进行 的 
特 化 。 

通常 ， 代 价 函 数 可 写 为 训练 集 上 的 平均 ， 如 














J(9) = 下 xy)~pastsZ(Ac 9)，y)， (8.1) 





其 中 工 是 每 个 样本 的 损失 函数 ，(z; 9) 是 输入 = 时 所 预测 的 输出 ，Past。 是 经 验 分 
布 。 监 督学 习 中 ,，y 是 目标 输出 。 在 本 章 中 ， 我 们 会 介绍 不 带 正则 化 的 监督 学 习 ,二 
的 变量 是 ftz; 9) 和 9 不 难 将 这 种 监督 学 习 扩 展 成 其 他 形式 ， 如 包括 6 或 者 z 作 
为 参数 ， 或 是 去 掉 参 数 y， 以 发 展 不 同形 式 的 正则 化 或 是 无 监督 学 习 。 

式 (8.D 定义 了 训练 集 上 的 目标 函数 。 通 常 ， 我 们 更 希望 最 小 化 取 自 数据 生成 分 
布 pasta 的 期 望 ， 而 不 仅仅 是 有 限 训练 集 上 的 对 应 目标 函数 : 

















(9) = Ex ypaata 工 (7 0), 切 . (8.2) 


8.1.1 ”经验 风险 最 小 化 





机 器 学 习 算 法 的 目标 是 降低 式 (8.2) 所 示 的 期 望 泛 化 误差 。 这 个 数据 量 被 称 为 风 
险 (risk )。 在 这 里 ， 我 们 强调 该 期 望 取 自 真实 的 潜在 分 布 paata。 如 果 我 们 知道 了 真 
实 分 布 paata(z,y)， 那 么 最 小 化 风险 变 成 了 一 个 可 以 被 优化 算法 解决 的 优化 问题 。 然 
而 ， 我 们 遇 到 的 机 器 学 习 问 题 ， 通 带 是 不 知道 paata(z, 四)， 只 知道 训练 集中 的 样本 。 

将 机 器 学 习 问 题 转化 回 一 个 优化 问题 的 最 简单 方法 是 最 小 化 训练 集 上 的 期 望 损 
失 。 这 意味 着 用 训练 集 上 的 经 验 分 布 fl(z,y) 替代 真实 分 布 p(z, 四 )。 现 在 ， 我 们 将 最 
小 化 经 验 风险 (empirical risk ): 
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Paus[EU(e gg 一 二 》 Ta;b) 99)， (8.3) 


77 
和 小 

















其 中 mm 表示 训练 样本 的 数目 。 

基于 最 小 化 这 种 平均 训练 误差 的 训练 过 程 被 称 为 经 验 风险 最 小 化 empirical 
risk minimization )。 在 这 种 情况 下 ， 机 器 学 习 仍 然 和 传统 的 直接 优化 很 相似 。 我 们 
并 不 直接 最 优化 风险 ， 而 是 最 优化 经 验 风险 ， 和 希望 也 能 够 很 大 地 降低 风险 。 一 系列 
不 同 的 理论 构造 了 一 些 条 件 ， 使 得 在 这 些 条 件 下 真实 风险 的 期 望 可 以 下 降 不 同 的 量 。 














8.1 学 习 和 纯 优 化 有 什么 不 同 237 


然而 ， 经 验 风 险 最 小 化 很 容易 导致 过 拟 合 。 高 容量 的 模型 会 简单 地 记 住 训练 集 。 
在 很 多 情况 下 ， 经 验 风险 最 小 化 并 非 真 的 可 行 。 最 有 效 的 现代 优化 算法 是 基于 梯度 
下 降 的 ， 但 是 很 多 有 用 的 损失 函数 ， 如 0- 1 损失 ， 没 有 有 效 的 导数 (导数 要 么 为 
零 ， 要 么 处 处 未 定义 )。 这 两 个 问题 说 明 ， 在 次 度 学 习 中 我 们 很 少 使 用 经 验 风险 最 小 
化 。 反 之 ， 我 们 会 使 用 一 个 稍 有 不 同 的 方法 ， 我 们 真正 优化 的 目标 会 更 加 不 同 于 我 
们 希望 优化 的 目标 。 


8.1.2 ”代理 损失 函数 和 提前 终止 


有 时 ， 我 们 真正 关心 的 损失 六 数 (比如 分 类 误差 ) 并 不 能 被 高 效 地 优化 。 例 如 ， 
即使 对 于 线性 分 类 器 而 言 ， 精 确 地 最 小 化 0 - 1 损失 通常 是 不 可 解 的 (复杂 度 是 输入 
维 数 的 指数 级 别 ) (Marcotte and Savard, 1992)。 在 这 种 情况 下 ,我们 通常 会 优化 代 
理 损失 函 数 (surrogate loss function )。 代 理 损失 冰 数 作为 原 目 标的 代理 ， 还 具备 一 
些 优 上 点。 例如， 正确 类 别 的 负 对 数 似 然 通常 用 作 0 -1L 损 失 的 蔡 代 。 负 对 数 似 然 允 许 
模型 估计 给 定 样本 的 类 别 的 条 件 概率 ， 如 果 该 模型 效果 好 ， 那 么 它 能 够 输出 期 望 最 
小 分 类 误差 所 对 应 的 类 别 。 

在 某 些 情况 下 ， 代 理 损失 函数 比 原 函 数学 到 的 更 多 。 例 如 ， 使 用 对 数 似 然 蔡 代 
困 数 时 ， 在 训练 集 上 的 0 -1 损失 达到 0 之 后 ,测试 集 上 的 0- 1 损失 还 能 持续 下 降 
很 长 一 段 时 间 。 这 是 因为 即使 0- 1 损失 期 望 是 零 时 ， 我 们 还 能 拉 开 不 同类 别 的 距离 
以 改进 分 类 器 的 鲁 棒 性 ， 获 得 一 个 更 强壮 的 、 更 值得 信赖 的 分 类 吉 ， 从 而 ， 相 对 于 
简单 地 最 小 化 训练 集 上 的 平均 0 - 1 损失 ， 它 能 够 从 训练 数据 中 抽取 更 多 信息 。 

一 般 的 优化 和 我 们 用 于 训练 算法 的 优化 有 一 个 重要 不 同 : 训练 算法 通常 不 会 
停止 在 局 部 极 小 点 。 反 之 ， 机 器 学 习 通 带 优 化 代理 损失 函数 ， 但 是 在 基于 提前 终止 
(第 7.8 节 ) 的 收敛 条 件 满足 时 停止 。 通 常 ， 提 前 终止 使 用 真实 潜在 损失 函数 ， 如 验 
证 集 上 的 0- 工 损失 , 并 设计 为 在 过 拟 合 发 生 之 前 终止 。 与 纯 优 化 不 同 的 是 ， 提 前 终 
止 时 代理 损失 冰 数 仍然 有 较 大 的 导数 ， 而 纯 优化 终止 时 导数 较 小 。 











8.1.3 ”批量 算法 和 小 批量 算法 


机 融 学 习 算 法 和 一 般 优 化 算法 不 同 的 一 点 是 ， 机 器 学 习 算 法 的 目标 函数 通常 可 
以 分 解 为 训练 样本 上 的 求 和 。 机 器 学 习 中 的 优化 算法 在 计算 参数 的 每 一 次 更 新 时 通 
常 仅 使 用 整个 代价 数 中 一 部 分 项 来 估计 代 价 函 数 的 期 望 值 。 
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例如 ， 最 大 似 然 估 计 问 题 可 以 在 对 数 空间 中 分 解 成 各 个 样本 的 总 和 : 


Ova = arTg Imax 》 logpmodel(Zt， VD; 9). (8.4) 
9 =1 
最 大 化 这 个 总 和 等 价 于 最 大 化 训练 集 在 经 验 分 布 上 的 期 望 : 
JJO) = 开 cy~pasa lo0gDmodel(z 0i 0): (8.5) 


优化 算法 用 到 的 目标 函数 yj 中 的 大 多 数 属 性 也 是 训练 集 上 的 期 望 。 例 如 ， 最 常 
用 的 属性 是 梯度 : 























Ve J(O) 一 EDassVe log Dmodel(Z， 2/; O0). (8.6) 


准确 计算 这 个 期 望 的 计算 代价 非常 大 ， 因 为 我 们 需要 在 整个 数据 集 上 的 每 个 样 
本 上 评估 模型 。 在 实践 中 ， 我 们 可 以 从 数据 集中 随机 采样 少量 的 样本 ， 然 后 计算 这 
些 样本 上 的 平均 值 。 

回想 一 下 , 7 个 样本 均值 的 标准 差 ( 式 (5.46) ) 是 vc/vV7， 其 中 c 是 样本 值 真实 
的 标准 差 。 分 母 Vr 表明 使 用 更 多 样本 来 估计 梯度 的 方法 的 回报 是 低 于 线性 的 。 比 
较 两 个 假想 的 梯度 计算 ， 一 个 基于 100 个 样本 ， 另 一 个 基于 10,000 个 样本 。 后 者 需 
要 的 计算 量 是 前 者 的 100 倍 ， 但 却 只 降低 了 10 倍 的 均值 标准 差 。 如 果 能 够 快速 地 
计算 出 梯度 估计 值 ， 而 不 是 缓慢 地 计算 准确 值 ， 那 么 大 多 数 优化 算法 会 收敛 地 更 快 
(就 总 的 计算 量 而 言 ， 而 不 是 指 更 新 次 数 )。 

另 一 个 促使 我 们 从 小 数目 样本 中 获得 梯度 的 统计 估计 的 动机 是 训练 集 的 元 余 。 
在 最 坏 的 情况 下 ， 训 练 集 中 所 有 的 mm 个 样本 都 是 彼此 相同 的 拷贝 。 基 于 采样 的 梯度 
估计 可 以 使 用 单个 样本 计算 出 正确 的 梯度 ， 而 比 原来 的 做 法 少 花 了 mm 倍 时 间 。 实 践 
中 ， 我 们 不 太 可 能 真 的 遇 到 这 种 最 坏 情况 ， 但 我 们 可 能 会 发 现 大 量 样本 都 对 梯度 做 
出 了 非常 相似 的 贡献 。 

使 用 整个 训练 集 的 优化 算法 被 称 为 批量 (batch ) 或 确定 性 ( deterministic ) 梯 
度 算 法 ， 因 为 它们 会 在 一 个 大 批量 中 同时 处 理 所 有 样本 。 这 个 术语 可 能 有 点 令 人 困 
感 ， 因 为 这 个 词 “ 批 量 ” 也 经 常 被 用 来 描述 小 批量 随机 梯度 下 降 算 法 中 用 到 的 小 批 
量 样本 。 通 常 ， 术 语 “ 批 量 梯度 下 降 ” 指 使 用 全 部 训练 集 ， 而 术语 “批量 ”单独 出 现 
时 指 一 组 样本 。 例 如 ， 我 们 普遍 使 用 术语 “批量 大 小 ”表示 小 批量 的 大 小 。 

每 次 只 使 用 单个 样本 的 优化 算法 有 时 被 称 为 随机 (stochastic ) 或 者 在 线 ( on- 
line ) 算法 。 术 语 “ 在 线 ”通常 是 指 从 连续 产生 样本 的 数据 流 中 抽取 样本 的 情况 ， 而 
不 是 从 一 个 固定 大 小 的 训练 集中 遍历 多 次 采样 的 情况 。 
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大 多 数 用 于 深度 学 习 的 算法 介 于 以 上 两 者 之 间 ， 使 用 一 个 以 上 ， 而 又 不 是 全 部 
的 训练 样本 。 传 统 上 , 这 些 会 被 称 为 小 批量 ( minibatch ) 或 小 批量 随机 ( minibatch 
stochastic ) 方法 ， 现 在 通常 将 它们 简单 地 称 为 随机 ( stochastic ) 方法 。 

随机 方法 的 典型 示例 是 随机 梯度 下 降 ， 这 将 在 第 8.3.1 节 中 详细 描述 。 

小 批量 的 大 小 通常 由 以 下 几 个 因素 决定 : 


。 更 大 的 批量 会 计算 更 精确 的 梯度 估计， 但 是 回报 却 是 小 于 线性 的 。 


。 极 小 批量 通常 难以 充分 利用 多 核 架 构 。 这 促使 我 们 使 用 一 些 绝对 最 小 批量 ， 低 
于 这 个 值 的 小 批量 处 理 不 会 减少 计算 时 间 。 


。 如 果 批量 处 理 中 的 所 有 样本 可 以 并 行 地 处 理 〈 通 营 确 是 如 此 )， 那 么 内 存 消耗 
和 批量 大 小 会 正比 。 对 于 很 多 硬件 设施 ， 这 是 批量 大 小 的 限制 因素 。 








e 在 某 些 硬件 上 使 用 特定 大 小 的 数组 时 , 运行 时 间 会 更 少 。 尤 其 是 在 使 用 GPU 时 ， 
通常 使 用 2 的 寡 数 作为 批量 大 小 可 以 获得 更 少 的 运行 时 间 。 一 般 ，2 的 寡 数 的 
取 值 范围 是 32 到 256，16 有 时 在 尝试 大 模型 时 使 用 。 








。 可 能 是 由 于 小 批量 在 学 习 过 程 中 加 入 了 噪声 ,它们 会 有 一 些 正 则 化 效果 (Wilson 
and Martinez, 2003)。 泛 化 误差 通常 在 批量 大 小 为 1 时 最 好 。 因 为 梯度 佑 计 的 
高 方差 ， 小 批量 训练 需要 较 小 的 学 习 率 以 保持 稳定 性 。 因 为 降低 的 学 习 率 和 消 
耗 更 多 步骤 来 亿 历 整个 训练 集 都 会 产生 更 多 的 步 又， 所 以 会 导致 总 的 运行 时 间 
非常 大 。 








不 同 的 算法 使 用 不 同 的 方法 从 小 批量 中 获取 不 同 的 信息 。 有 些 算法 对 采样 误差 
比 其 他 算法 更 敏感 ， 这 通常 有 两 个 可 能 原因 。 一 个 是 它们 使 用 了 很 难 在 少量 样本 上 
精确 估计 的 信息 ， 另 一 个 是 它们 以 放大 采样 误差 的 方式 使 用 了 信息 。 仪 基于 梯度 9 
的 更 新 方法 通常 相对 和 鲁 棒 ， 并 能 使 用 较 小 的 批量 获得 成 功 ， 如 100。 使 用 Hessian 拢 
阵 互 ， 计 算 如 豆 9 更 新 的 二 阶 方法 通常 需要 更 大 的 批量 ， 如 10,000。 这 些 大 批 
量 需要 最 小 化 估计 五 :9 的 波动 。 假 设 瓦 被 精确 估计 ,但 是 有 病态 条 件数 。 乘 以 万 
或 是 其 逆 会 放大 之 前 存在 的 误差 〈 这 个 示例 中 是 指 9 的 佑 计 误 差 )。 即 使 五 被 精确 
估计 ，9 中 非常 小 的 变化 也 会 导致 更 新 值 百 :9 中 非常 大 的 变化 。 当 然 ， 我 们 通常 只 
会 近似 地 佑 计 五， 因此 相对 于 我 们 使 用 具有 较 差 条 件 的 操作 去 估计 g， 更 新 五 "9g 
会 含有 更 多 的 误差 。 
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小 批量 是 随机 抽取 的 这 点 也 很 重要 。 从 一 组 样本 中 计算 出 梯度 期 望 的 无 偏 估计 
要 求 这 些 样 本 是 独立 的 。 我 们 也 希望 两 个 连续 的 梯度 佑 计 是 互相 独立 的 , 因此 两 个 连 
续 的 小 批量 样本 也 应 该 是 彼此 独立 的 。 很 多 现实 的 数据 集 自然 排列 ， 从 而 使 得 连续 
的 样本 之 间 具 有 高 度 相 关 性 。 例 如 ， 假 设 我 们 有 一 个 很 长 的 血液 样本 测试 结果 清单 。 
清单 上 的 数据 有 可 能 是 这 样 获取 的 ， 头 五 个 血液 样本 于 不 同时 间 段 取 自 第 一 个 病人 ， 
接 下 来 三 个 血液 样本 取 自 第 二 个 病人 , 再 随后 的 血液 样本 取 自 第 三 个 病人 , 等 等 。 如 
果 我 们 从 这 个 清单 上 顺序 抽取 样本 ， 那 么 我 们 的 每 个 小 批量 数据 的 侦 差 都 很 大 ， 
为 这 个 小 批量 很 可 能 只 代表 着 数据 集 上 众多 患者 中 的 某 一 个 患者 。 在 这 种 数据 集中 
的 顺序 有 很 大 影响 的 情况 下 ， 很 有 必要 在 抽取 小 批量 样本 前 打 乱 样本 顺序 。 对 于 非 
常 大 的 数据 集 ， 如 数据 中 心 含有 几 十 亿 样 本 的 数据 集 ， 我 们 每 次 构建 小 批量 样本 时 
都 将 样本 完全 均匀 地 抽取 出 来 是 不 大 现实 的 。 幸 运 的 是 ， 实 践 中 通常 将 样本 顺序 打 
乱 一 次 ， 然 后 按照 这 个 顺序 存储 起 来 就 足够 了 。 之 后 训练 模型 时 会 用 到 的 一 组 组 小 
批量 连续 样本 是 固定 的 ， 每 个 独立 的 模型 每 次 忆 历 训练 数据 时 都 会 重复 使 用 这 个 顺 
序 。 然 而 ， 这 种 偏离 真实 随机 采样 的 方法 并 没有 很 严重 的 有 害 影 响 。 不 以 某 种 方式 
打 乱 样本 顺序 才 会 极 大 地 降低 算法 的 性 能 。 

很 多 机 器 学 习 上 的 优化 问题 都 可 以 分 解 成 并 行 地 计算 不 同样 本 上 单独 的 更 新 。 
换言之 ， 我 们 在 计算 小 批量 样本 素 上 最 小 化 7( 马 ) 的 更 新 时 ， 同 时 可 以 计算 其 他 小 
批量 样本 上 的 更 新 。 这 类 异步 并 行 分 布 式 方法 将 在 第 12.1.3 节 中 进一步 讨论 。 

小 批量 随机 梯度 下 降 的 一 个 有 趣 动机 是 ， 只 要 没有 重复 使 用 样本 ， 它 将 遵循 着 
真实 泛 化 误差 〈 式 (8.2) ) 的 梯度 。 很 多 小 批量 随机 梯度 下 降 方法 的 实现 都 会 打 乱 数 
据 顺 序 一 次 ， 然 后 多 次 遍历 数据 来 更 新 参数 。 第 一 次 壳 历时 ， 每 个 小 批量 样本 都 用 
来 计算 真实 泛 化 误差 的 无 侦 佑 计 。 第 二 次 志 历 时 ， 佑 计 将 会 是 有 偶 的 ， 因 为 它 重 新 
抽取 了 已 经 用 过 的 样本 ， 而 不 是 从 和 原 允 样本 相同 的 数据 生成 分 布 中 获取 新 的 无 俩 
的 样本 。 

我 们 不 难 从 在 线 学 习 的 情况 中 看 出 随机 梯度 下 降 最 小 化 泛 化 误差 的 原因 。 这 时 
样本 或 者 小 批量 都 是 从 数据 流 (stream ) 中 抽取 出 来 的 。 换 言 之 ， 学 习 器 好 像 是 一 
个 每 次 看 到 新 样本 的 人 ， 每 个 样本 (zy) 都 来 自 数据 生成 分 布 paata(z2, 人 )， 而 不 是 使 
用 大 小 固定 的 训练 集 。 这 种 情况 下 ， 样 本 永远 不 会 重复 ; 每 次 更 新 的 样本 是 从 分 布 
puata 中 采样 获得 的 无 俩 样本 。 

在 z 和 % 是 离散 时 ， 以 上 的 等 价 性 很 容易 得 到 。 在 这 种 情况 下 , 泛 化 误差 
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( 式 (8.2) ) 可 以 表示 为 
三 (0) 人 0 2) 卫 (jz 0),y)， (8.7) 
2 

上 式 的 准确 梯度 为 

gg 一 Ve. 产 (0) 一 0 y)VeZ(Cz 9) 2 (8.8) 

2 

在 式 (8.5) 和 式 (8.6) 中 , 我 们 已 经 在 对 数 似 然 中 看 到 了 相同 的 结果 ; 现在 我 们 发 现 这 
一 点 在 包括 似 然 的 其 他 函数 工 上 也 是 成 立 的 。 在 一 些 关 于 puatas 和 工 的 温和 假设 下 ， 
在 z 和 y% 是 连续 时 也 能 得 到 类 似 的 结果 。 


因此 ， 我 们 可 以 从 数据 生成 分 布 paata 抽取 小 批量 样本 {z0,.… ,zt } 以 及 对 
应 的 目标 y92 ， 然 后 计算 该 小 批量 上 损失 函数 关于 对 应 参数 的 梯度 


g= 二 ve Lam;g)80) (8.9) 





以 此 获得 谤 化 误差 准确 梯度 的 无 偏 估 计 。 最 后 ， 在 泛 化 误差 上 使 用 SGD 方法 在 方向 
9 上 更 新 0。 

当然 ， 这 个 解释 只 能 用 于 样本 没有 重复 使 用 的 情况 。 然 而 ， 除 非 训 练 集 特 别 大 ， 
通 稼 最 好 是 多 次 忆 历 训练 集 。 当 多 次 饥 历 数据 集 更 新 时 ,只 有 第 一 遍 满足 泛 化 误差 梯 
度 的 无 偏 估 计 。 但 是 ， 额 外 的 所 历 更 新 当然 会 由 于 减 小 训练 误差 而 得 到 足够 的 好 处 ， 
以 抵消 其 带 来 的 训练 误差 和 测试 误差 间 差 距 的 增加 。 

随 着 数据 集 的 规模 迅速 增长 ， 超 越 了 计算 能 力 的 增 速 ， 机 器 学 习 应 用 每 个 样本 
只 使 用 一 次 的 情况 变 得 越 来 越 常见 ， 甚 至 是 不 完整 地 使 用 训练 集 。 在 使 用 一 个 非常 
大 的 训练 集 时 ， 过 拟 合 不 再 是 问题 ， 而 欠 拟 合 和 计算 效率 变 成 了 主要 的 顾虑 。 读 者 
也 可 以 参考 Bottou and Bousquet (2008a) 中 关于 训练 样本 数目 增长 时 ， 泛 化 误差 上 
计算 瓶颈 影响 的 讨论 。 
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优化 通常 是 一 个 极其 困难 的 任务 。 传 统 的 机 天 学 习 会 小 心 设 计 目 标 琐 数 和 约束 ， 
以 确保 优化 问题 是 凸 的 ， 从 而 避免 一 般 优 化 问题 的 复杂 度 。 在 训练 神经 网 络 时 ， 我 
们 肯定 会 遇 到 一 般 的 非 凸 情况 。 即 使 是 凸 优化 ， 也 并 非 没 有 任何 问题 。 在 这 一 节 中 ， 
我 们 会 总 结 几 个 训练 深度 模型 时 会 涉及 到 的 主要 挑战 。 
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8.2.1 ”病态 

在 优化 凸 函 数 时 ， 会 遇 到 一 些 挑 成 。 这 其 中 最 突出 的 是 Hessian 和 矩阵 互 的 病 
态 。 这 是 数值 优化 、 巴 优化 或 其 他 形式 的 优化 中 普遍 存在 的 问题 ， 更 多 细节 请 回顾 
第 4.3.1 节 。 

病态 问题 一 般 被 认为 存在 于 神经 网 络 训 练 过 程 中 。 病 态 体 现在 随机 梯度 下 降 会 
“ 卡 ” 在 某 些 情况 ， 此 时 即使 很 小 的 更 新 步 长 也 会 增加 代价 函数 。 

回顾 式 (4.9) ， 代 价 琢 数 的 二 阶 泰勒 级 数 展开 预测 梯度 下 降 中 的 -eg 会 增加 








1 
569 Bo 一 cg19 (8.10) 


到 代价 中 。 当 5e29g 五 g 超过 eg 9g 时 ， 梯 度 的 病态 会 成 为 问题 。 判 断 病态 是 否 不 利 
于 神经 网 络 训练 任务 ， 我 们 可 以 监测 平方 梯度 范 数 9 9 和 9 五 9。 在 很 多 情况 中 ， 
梯度 范 数 不 会 在 训练 过 程 中 显著 缩小 ,但 是 9 五 g 的 增长 会 超过 一 个 数量 级 。 其 结 
果 是 尽管 梯度 很 强 ， 学 习 会 变 得 非常 缓慢 ， 因 为 学 习 率 必须 收缩 以 弥补 更 强 的 曲率 。 
如 图 8.1 所 示 ， 成 功 训练 的 神经 网 络 中 ， 梯 度 显 著 增 加 。 
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图 8.1: 梯度 下 降 通常 不 会 到 达 任何 类 型 的 临界 点 。 此 示例 中 ， 在 用 于 对 象 检 测 的 卷 积 网 络 的 整个 
训练 期 间 ， 梯 度 范 数 持续 增加 。( 左 ) 各 个 梯度 计算 的 范 数 如 何 随时 间 分 布 的 散 点 图 。 为 了 方便 作 
图 ,每 轮 仅 绘制 一 个 梯度 范 数 。 我 们 将 所 有 梯度 范 数 的 移动 平均 绘制 为 实 曲线 。 梯 度 范 数 明显 随时 
间 增 加 ， 而 不 是 如 我 们 所 期 望 的 那样 随 训 练 过 程 收敛 到 临界 点 而 减 小 。( 去 ) 尽管 梯度 递增 ， 训 练 
过 程 却 相 当成 功 。 验 证 集 上 的 分 类 误差 可 以 降低 到 较 低 水 平 。 






































尽管 病态 还 存在 于 除了 神经 网 络 训练 的 其 他 情况 中 ， 有 些 适 用 于 其 他 情况 的 解 
决 病态 的 技术 并 不 适用 于 神经 网 络 。 例 如 ， 和 牛顿 法 在 解决 带 有 病态 条 件 的 Hessian 拢 
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阵 的 凸 优化 问题 时 ， 是 一 个 非常 优秀 的 工具 ， 但 是 我 们 将 会 在 以 下 小 节 中 说 明 牛 顿 
法 运用 到 神经 网 络 时 需要 很 大 的 改动 。 


8.2.2 ”局 部 极 小 值 





凸 优化 问题 的 一 个 突出 特点 是 其 可 以 简化 为 寻找 一 个 局 部 极 小 点 的 问题 。 任 何 
一 个 局 部 极 小 点 都 是 全 局 最 小 点 。 有 些 凸 函数 的 底部 是 一 个 平坦 的 区 域 ， 而 不 是 单 
一 的 全 局 最 小 点 ， 但 该 平坦 区 域 中 的 任意 点 都 是 一 个 可 以 接受 的 解 。 优 化 一 个 凸 问 
题 时 ， 帮 发 现 了 任何 形式 的 临界 点 ， 我 们 都 会 知道 已 经 找到 了 一 个 不 错 的 可 行 解 。 

对 于 非 凸 机 数 时 ， 如 神经 网 络 ， 有 可 能 会 存在 多 个 局 部 极 小 值 。 事 实 上 ， 几 乎 所 
有 的 深度 模型 基本 上 都 会 有 非常 多 的 局 部 极 小 值 。 然 而 ， 我 们 会 发 现 这 并 不 是 主要 
问题 。 

由 于 模型 可 辨识 性 (model identiftability ) 问题 ， 神 经 网 络 和 任意 具有 多 个 等 
效 参 数 化 潜 变 量 的 模型 都 会 具有 多 个 局 部 极 小 值 。 如 果 一 个 足够 大 的 训练 集 可 以 唯 
一 确定 一 组 模型 参数 ， 那 么 该 模型 被 称 为 可 辨认 的 。 带 有 潜 变 量 的 模型 通常 是 不 可 
辨认 的 ， 因 为 通过 相互 交换 光 变 量 我 们 能 得 到 等 价 的 模型 。 例 如 ， 考 虑 神经 网 络 的 
第 一 层 ， 我 们 可 以 交换 单元 ? 和 单元 7 的 传人 权重 向 量 、 传 出 权重 向 量 而 得 到 等 价 
的 模型 。 如 果 神 经 网 络 有 束 层 , 每 层 有 郊 个 单元 , 那么 会 有 mlm 种 排列 隐藏 单元 的 
方式 。 这 种 不 可 辨认 性 被 称 为 权重 空间 对 称 性 ( weight space symmetry )。 

除了 权重 空间 对 称 性 ， 很 多 神经 网 络 还 有 其 他 导致 不 可 辨认 的 原因 。 例 如 ， 在 
任意 整流 线性 网 络 或 者 maxout 网 络 中 ， 我 们 可 以 将 传人 权重 和 偏 置 扩 大 a 倍 ， 然 
后 将 传 出 权重 扩大 宇 倍 ， 而 保持 模型 等 价 。 这 意味 着 ， 如 果 代价 函数 不 包括 如 权重 
衰减 这 种 直接 依赖 于 权重 而 非 模型 输出 的 项 ， 那 么 整流 线性 网 络 或 者 maxonut 网 络 
的 每 一 个 局 部 极 小 点 都 在 等 价 的 局 部 极 小 值 的 (m x ”) 维 双 曲 线 上 。 

这 些 模 型 可 辨识 性 问题 意味 着 神经 网 络 代 价 函 数 具 有 非常 多 、 甚 至 不 可 数 无 限 
多 的 局 部 极 小 值 。 然 而 ， 所 有 这 些 由 于 不 可 辨识 性 问题 而 产生 的 局 部 极 小 值 都 有 相 
同 的 代价 函数 值 。 因 此 ， 这 些 局 部 极 小 值 并 非 是 非 凸 所 带 来 的 问题 。 

如 果 局 部 极 小 值 相 比 全 局 最 小 点 拥有 很 大 的 代价 ， 局 部 极 小 值 会 带 来 很 大 的 隐 
患 。 我 们 可 以 构建 没有 隐藏 单元 的 小 规模 神经 网 络 ， 其 局 部 极 小 值 的 代价 比 全 局 最 
小 点 的 代价 大 很 多 (Sontag and Sussman,，1989; Brady et al.，1989; Gori and Tesi， 
1992)。 如 果 具 有 很 大 代价 的 局 部 极 小 值 是 常见 的 ， 那 么 这 将 给 基于 梯度 的 优化 算法 
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带 来 极 大 的 问题 。 

对 于 实际 中 感 兴趣 的 网 络 ， 是 否 存在 大 量 代价 很 高 的 局 部 极 小 值 ， 优 化 算法 是 
否 会 磁 到 这 些 局 部 极 小 值 ,都 是 尚未 解决 的 公开 问题 。 多 年 来 , 大 多 数 从 业者 认为 局 
部 极 小 值 是 困扰 神经 网 络 优化 的 常见 问题 。 如 今 ,情况 有 所 变化 。 这 个 问题 仍然 是 学 
术 界 的 热点 问题 , 但 是 学 者 们 现在 猜想 ， 对 于 足够 大 的 神经 网 络 而 言 , 大 部 分 局 部 极 
小 值 都 具有 很 小 的 代价 函数 ， 我 们 能 不 能 找到 真正 的 全 局 最 小 点 并 不 重要 ， 而 是 需 
要 在 参数 空间 中 找到 一 个 代价 很 小 〈 但 不 是 最 小 ) 的 点 (Saxe et w,， 2013; Dauphin 
et al.,， 2014; Goodfellow et al.， 2015; Choromanska et aq/.，2014)。 


很 多 从 业者 将 神经 网 络 优化 中 的 所 有 困难 都 归结 于 局 部 极 小 值 。 我 们 鼓励 从 业 
者 要 仔细 分 析 特 定 的 问题 。 一 种 能 够 排除 局 部 极 小 值 是 主要 问题 的 检测 方法 是 画 出 
梯度 范 数 随时 间 的 变化 。 如 果 梯 度 范 数 没有 缩小 到 一 个 微小 的 值 ， 那 么 该 问题 既 不 
是 局 部 极 小 值 ， 也 不 是 其 他 形式 的 临界 点 。 在 高 维 空间 中 ， 很 难 明 确证 明 局 部 极 小 
值 是 导致 问题 的 原因 。 许 多 并 非 局 部 极 小 值 的 结构 也 具有 很 小 的 梯度 。 








8.2.3 高原、 鞍点 和 其 他 平坦 区 域 


对 于 很 多 高 维 非 凸 函数 而 言 ， 局 部 极 小 值 (以 及 极 大 值 ) 事实 上 都 远 少 于 另 一 
类 梯度 为 零 的 点 : 贰 点 。 通 点 附近 的 某 些 点 比 鞍 点 有 更 大 的 代价 ， 而 其 他 点 则 有 更 
小 的 代价 。 在 鞍点 处 ，Hessian 和 矩 阵 同 时 具有 正 负 特 征 值 。 位 于 正 特 征 值 对 应 的 特征 
回 量 方向 的 点 比 鞍 点 有 更 大 的 代价 ， 反 之 ， 位 于 负 特 征 值 对 应 的 特征 向 量 方 回 的 点 
有 更 小 的 代价 。 我 们 可 以 将 鞍点 视 为 代价 郴 数 某 个 横 截 面 上 的 局 部 极 小 点 ， 同 时 也 
可 以 视 为 代价 函数 某 个 横 截 面 上 的 局 部 极 大 点 。 图 4.5 给 了 一 个 示例 。 

多 类 随机 本 数 表现 出 以 下 性 质 : 低 维 空间 中 ， 局 部 极 小 值 很 普遍 。 在 更 高 维 空 
间 中 ， 局 部 极 小 值 很 罕见 ， 而 鞍点 则 很 稼 见 。 对 于 这 类 刺 数 厂 : 了 "一 下 而 言 ， 胃 
点 和 局 部 极 小 值 的 数目 比率 的 期 望 随 ”指数 级 增长 。 我 们 可 以 从 直觉 上 理解 这 种 现 
象 一 一 Hessian 矩阵 在 局 部 极 小 点 处 只 有 正 特征 值 。 而 在 鞍点 处 ，Hessian 矩阵 则 同 
时 具有 正 负 特 征 值 。 试 想 一 下 ， 每 个 特征 值 的 正 负 号 由 抛 硬 币 决定 。 在 一 维 情况 下 ， 
很 容易 抛 便 币 得 到 正面 朝 上 一 次 而 获取 局 部 极 小 点 。 在 王 维 空间 中 ， 要 抛掷 呈 次 便 
币 都 正面 缚 上 的 难度 是 指数 级 的 。 具 体 可 以 参考 Dauphin et al. (2014) ， 它 回顾 了 相 
关 的 理论 工作 。 


很 多 随机 肯 数 一 个 惊人 性 质 是 ， 当 我 们 到 达 代 价 较 低 的 区 间 时 ，Hessian 和 矩阵 
的 特征 值 为 正 的 可 能 性 更 大 。 和 抛 硬 币 类 比 ， 这 意味 着 如 果 我 们 处 于 低 代 价 的 临界 
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点 时 , 抽 掷 硬币 正面 朝 上 交 次 的 概率 更 大 。 这 也 意味 着 ,局 部 极 小 值 具有 低 代价 的 可 
能 性 比 高 代价 要 大 得 多 。 具 有 高 代价 的 临界 点 更 有 可 能 是 蒂 点 。 具 有 极 高 代价 的 临 
界 点 就 很 可 能 是 局 部 极 大 值 了 。 

以 上 现象 出 现在 许多 种 类 的 随机 函数 中 。 那 么 是 否 在 神经 网 络 中 也 有 发 生 呢 ? 
Baldi and Hornik (1989) 从 理论 上 证 明 ,， 不 具 非 线性 的 浅 层 自 编码 器 〈 第 十 四 章 中 
将 介绍 的 一 种 将 输出 训练 为 输入 找 贝 的 前 馈 网 络 ) 只 有 全 局 极 小 值 和 较 点 ， 没 有 代 
价 比 全 局 极 小 值 更 大 的 局 部 极 小 值 。 他 们 还 发 现 这 些 结果 能 够 扩展 到 不 具 非 线性 的 
更 深 的 网 络 上 , 不 过 没有 证 明 。 这 类 网 络 的 输出 是 其 输入 的 线性 函数 , 但 它们 仍然 有 
助 于 分 析 非 线性 神经 网 络 模型 ， 因 为 它们 的 损失 函数 是 关于 参数 的 非 凸 函数 。 这 类 
网 络 本 质 上 是 多 个 矩阵 组 合 在 一 起 。Saxe et al. (2013) 精确 解析 了 这 类 网 络 中 完整 
的 学 习 动 态 ， 表 明 这 些 模型 的 学 习 能 够 捕捉 到 许多 在 训练 具有 非 线性 激活 函数 的 深 
度 模 型 时 观察 到 的 定性 特征 。Dauphin et ww (2014) 通过 实验 表明 ， 真 实 的 神经 网 
络 也 存在 包含 很 多 高 代价 贡 点 的 损失 函数 。Choromanska et ol. (2014) 提供 了 额外 
的 理论 论点 ， 表 明 另 一 类 和 神经 网 络 相关 的 高 维 随机 六 数 也 满足 这 种 情况 。 

毅 点 激增 对 于 训练 算法 来 说 有 哪些 影响 呢 ? 对 于 只 使 用 梯度 信息 的 一 阶 优化 算 
法 而 言 ， 目 前 情况 还 不 清楚 。 鞍 点 附近 的 梯度 通常 会 非常 小 。 另 一 方面 ， 实 验 中 梯度 
下 降 似 乎 可 以 在 许多 情况 下 逃离 鞍点 。Goodfellow et aol. (2015) 可 视 化 了 最 新 神经 
网 络 的 几 个 学 习 轨 迹 ， 图 8.2 给 了 一 个 例子 。 这 些 可 视 化 显示 ， 在 突出 的 鞍点 附近 ， 
代价 函数 都 是 平坦 的 ， 权 重 都 为 零 。 但 是 他 们 也 展示 了 梯度 下 降 轨迹 能 够 迅速 多 出 
该 区 间 。Goodfellow et ol!. (2015) 也 主张 , 应 该 可 以 通过 分 析 来 表明 连续 时 间 的 梯度 
下 降 会 逃离 而 不 是 吸引 到 鞍点 ， 但 对 梯度 下 降 更 现实 的 使 用 场景 来 说 ， 情 况 或 许 会 
有 所 不 同 。 

对 于 牛顿 法 而 言 ， 鞍 点 显然 是 一 个 问题 。 梯 度 下 降 旨 在 朝 “ 下 坡 ” 移 动 ， 而 非 
明确 寻求 临界 点 。 而 牛顿 法 的 目标 是 寻求 梯度 为 零 的 点 。 如 果 没 有 适当 的 修改 ， 牛 
顿 法 就 会 跳 进 一 个 鞍点 。 高 维 空间 中 鞍点 的 激增 或 许 解释 了 在 神经 网 络 训练 中 为 什 
么 二 阶 方法 无 法 成 功 取代 梯度 下 降 。Dauphin et 史 (2014) 介绍 了 二 阶 优化 的 无 鞍 
牛顿 法 (saddle-free Newton method )， 并 表明 和 传统 算法 相 比 有 显著 改进 。 二 阶 方 
法 仍然 难以 扩展 到 大 型 神经 网 络 ， 但 是 如 果 这 类 无 较 算 法 能 够 扩展 的 话 ， 还 是 很 有 
希望 的 。 

除了 极 小 值 和 鞍点 ， 还 存在 其 他 梯度 为 零 的 点 。 例 如 从 优化 的 角度 看 与 鞍点 很 
相似 的 极 大 值 ,很 多 算法 不 会 被 吸引 到 极 大 值 , 除了 未 经 修改 的 牛顿 法 。 和 极 小 值 一 
样 ， 许 多 种 类 的 随机 函数 的 极 大 值 在 高 维 空间 中 也 是 指数 级 稀少 。 
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图 8.2: 神经 网 络 代价 函数 的 可 视 化 。 这 些 可 视 化 对 应 用 于 真实 对 象 识别 和 自然 语言 处 理 任务 的 前 
馈 神 经 网 络 、 卷 积 网 络 和 循环 网 络 而 言 是 类 似 的 。 令 人 惊讶 的 是 ,这 些 可 视 化 通常 不 会 显示 出 很 多 
明显 的 障碍 。 大 约 2012 年 ， 在 随机 梯度 下 降 开 始 成 功 训练 非常 大 的 模型 之 前 ， 相 比 这 些 投影 所 显 
示 的 神经 网 络 代价 函数 的 表面 通常 被 认为 有 更 多 的 非 凸 结构 。 该 投影 所 显示 的 主要 障碍 是 初始 参 
数 附近 的 高 代价 鞍点 ， 但 如 由 蓝 色 路 径 所 示 ，SGD 训练 轨迹 能 轻易 地 逃脱 该 鞍点 。 大 多 数 训练 时 
间 花 费 在 横 穿 代价 函数 中 相对 平坦 的 峡谷 ， 可 能 由 于 梯度 中 的 高 噪声 、 或 该 区 域 中 Hessian 和 矩阵 
的 病态 条 件 ， 或 者 需要 经 过 间接 的 弧 路 径 绕 过 图 中 可 见 的 高 “ 山 ”。 图 经 Goodfellow et oa/. (2015) 
许可 改编 。 
























































也 可 能 存在 恒 值 的 、 宽 且 平 坦 的 区 域 。 在 这 些 区 域 ， 梯 度 和 Hessian 和 阵 都 是 
零 。 这 种 退化 的 情形 是 所 有 数值 优化 算法 的 主要 问题 。 在 凸 问题 中 ， 一 个 宽 而 平坦 
的 区 间 肯 定 包 含 全 局 极 小 值 ， 但 是 对 于 一 般 的 优化 问题 而 言 ， 这 样 的 区 域 可 能 会 对 
应 着 目标 函数 中 一 个 较 高 的 值 。 


8.2.4 悬崖 和 梯度 爆炸 


多 层 神经 网 络 通常 存在 像 悬 崖 一 样 的 斜率 较 大 区 域 ， 如 图 8.3 所 示 。 这 是 由 于 几 
个 较 大 的 权重 相 乘 导致 的 。 遇 到 斜率 极 大 的 悬 岩 结构 时 ， 梯 度 更 新 会 很 大 程度 地 改 
变 参 数值 ， 通 常会 完全 跳 过 这 类 悬崖 结构 。 

不 管 我 们 是 从 上 还 是 从 下 接近 悬崖 ， 情 况 都 很 糟糕 ， 但 幸运 的 是 我 们 可 以 用 使 
用 第 10.11.1 节 介绍 的 启发 式 梯 度 截断 〈 gradient clipping ) 来 避免 其 严重 的 后 果 。 其 
基本 想法 源 自 梯度 并 没有 指明 最 佳 步 长 ， 只 说 明了 在 无 限 小 区 域内 的 最 佳 方向 。 当 
传统 的 梯度 下 降 算 法 提议 更 新 很 大 一 步 时 ， 启 发 式 梯度 截断 会 干涉 来 减 小 步 长， 从 
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图 8.3: 高 度 非 线性 的 深度 神经 网 络 或 循环 神经 网 络 的 目标 函数 通常 包含 由 几 个 参数 连 乘 而 导致 的 
参数 空间 中 尖锐 非 线 性 。 这 些 非 线性 在 某 些 区 域 会 产生 非常 大 的 导数 。 当 参数 接近 这 样 的 悬崖 区 
域 时 ， 梯 度 下 降 更 新 可 以 使 参数 弹射 得 非常 远 ， 可 能 会 使 大 量 已 完成 的 优化 工作 成 为 无 用 功 。 图 
经 Pascanu et al. (2013a) 许可 改编 。 












































而 使 其 不 太 可 能 走出 梯度 近似 为 最 陡 下 降 方向 的 悬崖 区 域 。 悬 崖 结构 在 循环 神经 网 
络 的 代价 冰 数 中 很 常见 ， 因 为 这 类 模型 会 涉及 到 多 个 因子 的 相 乘 ， 其 中 每 个 因子 对 
应 一 个 时 间 步 。 因 此 ， 长 期 时 间 序 列 会 产生 大 量 相 乘 。 





8.2.5 “长 期 依赖 


当 计算 图 变 得 极 深 时 ， 神 经 网 络 优化 算法 会 面临 的 另外 一 个 难题 就 是 长 期 依 
赖 问题 一 一 由 于 变 深 的 结构 使 模型 丧失 了 学 习 到 先前 信息 的 能 力 ， 让 优化 变 得 极 
其 困难 。 深 层 的 计算 图 不 仅 存 在 于 前 馈 网 络 ， 还 存在 于 之 后 介绍 的 循环 网 络 中 (在 
第 十 章 中 描述 )。 因 为 循环 网 络 要 在 很 长 时 间 序 列 的 各 个 时 刻 重复 应 用 相同 操作 来 构 
建 非常 深 的 计算 图 ， 并 且 模 型 参数 共享 ， 这 使 问题 更 加 凸显 。 

例如 ， 假 设 某 个 计算 图 中 包含 一 条 反复 与 矩阵 环 相 乘 的 路 径 。 那 么 土 步 后 ， 相 
当 于 乘 以 环 。 假 设 本 有 特征 值 分 解 全 = VYdiag(A) !。 在 这 种 简单 的 情况 下 ， 
很 容易 看 出 





环 =(Ydiag( 和)T 广 杠 = Vdiag( AT- (8.11) 


当 特 征 值 X; 不 在 1 附近 时 , 大 在 量 级 上 大 于 1 则 会 爆炸 ; 若 小 于 1 时 则 会 消失 。 梯 
度 消 失 与 爆炸 问题 ( vanishing and exploding gradient problem ) 是 指 该 计算 图 上 的 
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梯度 也 会 因为 diag( 和 ) 大 幅度 变化 。 梯 度 消 失 使 得 我 们 难以 知道 参数 绷 哪 个 方向 移 
动能 够 改进 代价 函数 ， 而 梯度 爆炸 会 使 得 学 习 不 稳定 。 之 前 描述 的 促使 我 们 使 用 梯 
度 截 断 的 悬崖 结构 便 是 梯度 爆炸 现象 的 一 个 例子 。 

此 处 描述 的 在 各 时 间 步 重复 与 倪 相 乘 非常 类 似 于 寻求 和 矩 阵 三 的 最 大 特征 值 及 
对 应 特征 向 量 的 宕 方法 (power method )。 从 这 个 观点 来 看 ，zfr 全 ' 最 终 会 丢弃 
中 所 有 与 三 的 主 特征 向 量 正 交 的 成 分 。 

循环 网 络 在 各 时 间 步 上 使 用 相同 的 矩阵 伍 ， 而 前 馈 网 络 并 没有 。 所 以 即使 使 
用 非常 深层 的 前 馈 网 络 ， 也 能 很 大 程度 上 有 效 地 避免 梯度 消失 与 爆炸 问题 (Sussillo， 
2014)。 

在 更 详细 地 描述 循环 网 络 之 后 ， 我 们 将 会 在 第 10.7 节 进一步 讨论 循环 网 络 训练 
中 的 挑战 。 





8.2.6 “” 非 精 确 梯度 


大 多 数 优化 算法 的 先决 条 件 都 是 我 们 知道 精确 的 梯度 或 是 Hessian 和 矩阵。 在 实践 
中 ,通常 这 些 量 会 有 噪声 ， 甚 至 是 有 侦 的 估计 。 几 乎 每 一 个 深度 学 习 算 法 都 需要 基 
于 采样 的 估计 ， 至 少 使 用 训练 样本 的 小 批量 来 计算 梯度 。 

在 其 他 情况 ， 我 们 希望 最 小 化 的 目标 琐 数 实 际 上 是 难以 处 理 的 。 当 目标 函数 不 
可 解 时 , 通常 其 梯度 也 是 难以 处 理 的 。 在 这 种 情况 下 ,我 们 只 能 近似 梯度 。 这 些 问题 
主要 出 现在 第 三 部 分 中 更 高 级 的 模型 中 。 例 如 ， 对 比 散 度 是 用 来 近似 玻 尔 兹 曼 机 中 
难以 处 理 的 对 数 似 然 梯度 的 一 种 技术 。 

各 种 神经 网 络 优化 算法 的 设计 都 考虑 到 了 梯度 估计 的 缺陷 。 我 们 可 以 选择 比 真 
实 损失 函数 更 容易 佑 计 的 代理 损失 函数 来 避免 这 个 问题 。 














8.2.7 ”局 部 和 全 局 结构 间 的 弱 对 应 





迄今 为 止 ， 我 们 讨论 的 许多 问题 都 是 关于 损失 本 数 在 单个 点 的 性 质 一 一 若 7(0) 
是 当前 点 2 的 病态 条 件 ， 或 者 8 在 悬 峙 中 ， 或 者 8 是 一 个 下 降 方向 不 明显 的 坑 点 ， 
那么 会 很 难 更 新 当前 步 。 

如 果 该 方向 在 局 部 改进 很 大 ， 但 并 没有 指向 代价 低 得 多 的 遥远 区 域 ， 那 么 我 们 
有 可 能 在 单 点 处 殉 服 以 上 所 有 困难 ， 但 仍然 表现 不 佳 。 
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Goodfellow et ol. (2015) 认为 大 部 分 训练 的 运行 时 间 取 决 于 到 达 解 决 方案 的 轨 
迹 长 度 。 如 图 8.2 所 示 ， 学 习 轨 迹 将 花费 大 量 的 时 间 探 寻 一 个 围绕 山形 结构 的 宽 弧 。 


大 多 数 优化 研究 的 难点 集中 于 训练 是 否 找到 了 全 局 最 小 点 、 局 部 极 小 点 或 是 较 
点 ， 但 在 实践 中 神经 网 络 不 会 到 达 任 何 一 种 临界 点 。 图 8.1 表 明神 经 网 络 通 党 不 会 到 
达 梯 度 很 小 的 区 域 。 甚 至 ， 这 些 临 界 点 不 一 定 存在 。 例 如 ,损失 冰 数 -logp(ly | z 0) 
可 以 没有 全 局 最 小 点 ， 而 是 当 随 着 训练 模型 逐渐 稳定 后 ， 渐 近 地 收 敛 于 某 个 值 。 对 
于 具有 离散 的 y 和 softmax 分 布 p(y | 四 的 分 类 天 而 言 ， 若 模型 能 够 正确 分 类 训 
练 集 上 的 每 个 样本 ， 则 负 对 数 似 然 可 以 无 限 趋 近 但 不 会 等 于 零 。 同 样 地 ， 实 值 模型 
po = 人 WO AL) ,6 的 负 对 数 似 然 会 趋向 于 负 无 穷 一 一 如 果 /6) 能 够 正确 预 
测 所 有 训练 集中 的 目标 y， 学 习 算 法 会 无 限制 地 增加 6。 图 8.4 给 出 了 一 个 失败 的 例 
子 ， 即 使 没有 局 部 极 小 值 和 鞍点 ， 该 例 还 是 不 能 从 局 部 优化 中 找到 一 个 良好 的 代价 
函数 值 。 
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图 8.4: 如 果 局 部 表面 没有 指向 全 局 解 ， 基 于 局 部 下 坡 移动 的 优化 可 能 就 会 失败 。 这 里 我 们 提供 一 
个 例子 ， 说明 即使 在 没有 鞍点 或 局 部 极 小 值 的 情况 下 ,优化 过 程 会 如 何 失败 。 此 例 中 的 代价 函数 仅 
包含 朝向 低 值 而 不 是 极 小 值 的 渐 近 线 。 在 这 种 情况 下 ， 造 成 这 种 困难 的 主要 原因 是 初始 化 在 “ 山 ?” 
的 错误 一 侧 ， 并 且 无 法 遍历 。 在 高 维 空间 中 ,学 习 算 法 通常 可 以 环绕 过 这 样 的 高 山 ， 但 是 相关 的 轨 
迹 可 能 会 很 长 ， 并 且 导 致 过 长 的 训练 时 间 ， 如 图 8.2 所 示 。 









































未 来 的 研究 需要 进一步 探索 影响 学 习 轨 迹 长 度 和 更 好 地 表征 训练 过 程 的 结果 。 

许多 现 有 研究 方法 在 求解 具有 困难 全 局 结构 的 问题 时 ， 旨 在 寻求 良好 的 初始 点 ， 
而 不 是 开发 非 局 部 范围 更 新 的 算法 。 

梯度 下 降 和 基本 上 所 有 的 可 以 有 效 训 练 神 经 网 络 的 学 习 算 法 ， 都 是 基于 局 部 较 
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小 更 新 。 之 前 的 小 节 主 要 集中 于 为 何 这 些 局 部 范围 更 新 的 正确 方向 难以 计算 。 我 们 
也 许 能 计算 目标 栅 数 的 一 些 性 质 ， 如 近似 的 有 偶 梯 度 或 正确 方向 佑 计 的 方差 。 在 这 
些 情况 下 ， 难 以 确定 局 部 下 降 能 和 否定 义 通 向 有 效 解 的 足够 短 的 路 径 ， 但 我 们 并 不 能 
真 的 遵循 局 部 下 降 的 路 径 。 目 标 函 数 可 能 有 诸如 病态 条 件 或 不 连续 梯度 的 问题 ， 使 
得 梯度 为 目标 函数 提供 较 好 近似 的 区 间 非 常 小 。 在 这 些 情况 下 ， 步 长 为 e 的 局 部 下 
降 可 能 定义 了 到 达 解 的 合理 的 短路 经 ， 但 是 我 们 只 能 计算 步 长 为 5 < e 的 局 部 下 降 
方向 。 在 这 些 情况 下 ， 局 部 下 降 或 许 能 定义 通 向 解 的 路 径 ， 但 是 该 路 径 包 含 很 多 次 
更 新 ， 因 此 遵循 该 路 径 会 带 来 很 高 的 计算 代价 。 有 时 ， 比 如 说 当 目 标 函 数 有 一 个 宽 
而 平 的 区 域 ， 或 是 我 们 试图 寻求 精确 的 临界 点 〈 通 常 来 说 后 一 种 情况 只 发 生 于 显 式 
求解 临界 点 的 方法 ,如 牛顿 法 ) 时 ， 局 部 信息 不 能 为 我 们 提供 任何 指导 。 在 这 些 情 况 
下 ， 局 部 下 降 完 全 无 法 定义 通 向 解 的 路 径 。 在 其 他 情况 下 ， 局 部 移动 可 能 太 过 贪心 ， 
朝 着 下 坡 方向 移动 ， 却 和 所 有 可 行 解 南 辕 北 ， 如 岁 8.4 所 示 ， 或 者 是 用 售 近 求 远 的 
方法 来 求解 问题 ， 如 图 8.2 所 示 。 目 前 ， 我 们 还 不 了 解 这些 问 题 中 的 哪 一 个 与 神经 网 
































不 管 哪个 问题 最 重要 ， 如 果 存 在 一 个 区 域 ， 我 们 遵循 局 部 下 降 便 能 合理 地 直接 
到 达 某 个 解 ， 并 且 我 们 能 够 在 该 良好 区 域 上 初始 化 学 习 ， 那 么 这 些 问 题 都 可 以 避免 。 


最 终 的 观点 还 是 建议 在 传统 优化 算法 上 研究 怎样 选择 更 佳 的 初始 化 点 ， 以 此 来 实现 
目标 更 切实 可 行 。 


8.2.8 ”优化 的 理论 限制 





一 些 理论 结果 表明 ， 我 们 为 神经 网 络 设计 的 任何 优化 算法 都 有 性 
and Rivest，1992; Judd,， 1989; Wolpert and MacReady,，1997)。 通 常 这 
响 神 经 网 络 在 实践 中 的 应 用 。 

一 些 理论 结果 仅 适 用 于 神经 网 络 的 单元 输出 离散 值 的 情况 。 然 而 ， 大 多 数 神经 
网 络 单元 输出 光滑 的 连续 值 ， 使 得 局 部 搜索 求解 优化 可 行 。 一 些 理论 结果 表明 , 存在 
某 类 问题 是 不 可 解 的 ， 但 很 难 判 断 一 个 特定 问题 是 否 属于 该 类 。 其 他 结果 表明 ， 寻 
找 给 定 规模 的 网 络 的 一 个 可 行 解 是 很 困难 的 ， 但 在 实际 情况 中 ， 我 们 通过 设置 更 多 
参数 ， 使 用 更 大 的 网 络 ， 能 轻松 找到 可 接受 的 解 。 此 外 ， 在 神经 网 络 训练 中 ， 我 们 
通常 不 关注 某 个 函数 的 精确 极 小 点 ， 而 只 关注 将 其 值 下 降 到 足够 小 以 获得 一 个 恨 好 
的 泛 化 误差 。 对 优化 算法 是 否 能 完成 此 目标 进行 理论 分 析 是 非常 困难 的 。 因 此 ， 研 
究 优 化 算法 更 现实 的 性 能 上 界 仍然 是 学 术 界 的 一 个 重要 目标 。 





Z》 
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8.3 ”基本 算法 
之 前 我 们 已 经 介绍 了 梯度 下 降 (第 4.3 节 )， 即 沿 着 整个 训练 集 的 梯度 方向 下 降 。 


这 可 以 使 用 随机 梯度 下 降 很 大 程度 地 加 速 ， 沿 着 随机 挑选 的 小 批量 数据 的 梯度 下 降 
方向 ， 就 像 第 5.9 节 和 第 8.1.3 节 中 讨论 的 一 样 。 





8.3.1 ”随机 梯度 下 降 





随机 梯度 下 降 〈SGD ) 及 其 变种 很 可 能 是 一 般 机 顺 学 习 中 应 用 最 多 的 优化 算法 ， 
特别 是 在 座 度 学 习 中 。 如 第 8.1.3 贡 中 所 讨论 的 ， 按 照 数据 生成 分 布 抽取 mm 个 小 批 
量 〈 独 立 同 分 布 的 ) 样本 ， 通 过 计算 它们 梯度 均值 ， 我 们 可 以 得 到 梯度 的 无 侦 佑 计 。 
算法 8.1 展示 了 如 何 沿 着 这 个 梯度 的 估计 下 降 。 

















算法 8.1 随机 梯度 下 降 (SGD ) 在 第 丰 个 训练 欠 代 的 更 新 
Redquire: 学 习 率 er 
Require: 初始 参数 0 
while 停止 准则 未 满足 do 
从 训练 集中 采 包 含 mm 个 样本 {z,. ,zto9} 的 小 批量 ， 其 中 zz 对 应 目标 为 
4。 
计算 梯度 估计 : 8 二 十 十 Ve》,Z(Hz;6), VD) 
应 用 更 新 : 0 和 二 0 一 6 


end while 

















SGD 算 法 中 的 一 个 关键 参数 是 学 习 率 。 之 前 ， 我 们 介绍 的 SGD 使 用 固定 的 学 
习 率 。 在 实践 中 ， 有 必要 随 着 时 间 的 推移 逐渐 降低 学 习 率 ， 因 此 我 们 将 第 有 步 欠 代 
的 学 习 率 记 作 exk。 

这 是 因为 SGD 中 梯度 估计 引入 的 噪声 源 (mm 个 训练 样本 的 随机 采样 ) 并 不 会 
在 极 小 点 处 消失 。 相 比 之 下 ， 当 我 们 使 用 批量 梯度 下 降 到 达 极 小 点 时 ， 整 个 代价 函 
数 的 真实 梯度 会 变 得 很 小 , 之 后 为 0, 因此 批量 梯度 下 降 可 以 使 用 固定 的 学 习 率 。 保 
证 SGD 收敛 的 一 个 充分 条 件 是 





人 (8.12) 
天 一 | 
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>》 红 < oo. (8.13) 
四 





实践 中 ， 一 般 会 线性 衰减 学 习 率 直到 第 7 次 迭代 : 


锥 二 (1 一 a)eo 十 aer (8.14) 





其 中 w = 2。 在 7 步 欠 代 之 后 ， 一 般 使 e 保持 常数 。 

学 习 率 可 通过 试验 和 误差 来 选取 ， 通 稼 最 好 的 选择 方法 是 监测 目标 冰 数 值 随时 
间 变 化 的 学 习 曲 线 。 与 其 说 是 科学 ， 这 更 像 是 一 门 艺术 ,我们 应 该 谨慎 地 参考 关于 
这 个 问题 的 大 部 分 指导 。 使 用 线性 策略 时 ， 需 要 选择 的 参数 为 ee，er，7。 通 常 了 被 
设 为 需要 反复 遍历 训练 集 几 百 次 的 迭代 次 数 。 通 党 er 应 设 为 大 约 eo 的 1 加。 主要 问 
题 是 如 何 设置 co。 若 eo 太 大 ， 学 习 曲 线 将 会 剧烈 振荡 ， 代 价 枯 数 值 通 常会 明显 增 
加 。 温 和 的 振荡 是 良好 的 ， 容 易 在 训练 随机 代价 函数 〈 例 如 使 用 Droponut 的 代价 天 
数 ) 时 出 现 。 如 果 学 习 率 太 小 , 那么 学 习 过 程 会 很 缓慢 。 如 果 初 始 学 习 率 太 低 ,， 那 么 
学 习 可 能 会 卡 在 一 个 相当 高 的 代价 值 。 通 常 ， 就 总 训练 时 间 和 最 终 代 价值 而 言 ， 最 优 
初始 学 习 率 会 高 于 大 约 迭 代 100 次 左右 后 达到 最 佳 效果 的 学 习 率 。 因 此 ， 通 常 最 好 
是 检测 最 早 的 几 轮 迭代， 选择 一 个 比 在 效果 上 表现 最 佳 的 学 习 率 更 大 的 学 习 率 ， 但 
又 不 能 太 大 导致 严重 的 震荡 。 

SGD 及 相关 的 小 批量 亦 或 更 广义 的 基于 梯度 优化 的 在 线 学 习 算法 ， 一 个 重要 的 
性 质 是 每 一 步 更 新 的 计算 时 间 不 依赖 训练 样本 数目 的 多 赛 。 即 使 训练 样本 数目 非常 
大 时 ， 它 们 也 能 收敛 。 对 于 足够 大 的 数据 集 ，SGD 可 能 会 在 处 理 整 个 训练 集 之 前 就 
收敛 到 最 终 测 试 集 误 差 的 某 个 固定 容 差 范围 内 。 

研究 优化 算法 的 收敛 率 , 一 般 会 衡量 额外 误差 (excess error ) .J(0) 一 mine J(9)， 
即 当前 代价 机 数 超出 最 低 可 能 代价 的 量 。SGD 应 用 于 凸 问题 时 ,8 步 欠 代 后 的 额外 
误差 量 级 是 O( 元 )， 在 强 凸 情况 下 是 O(#)。 除 非 假 定额 外 的 条 件 ， 否 则 这 些 界 限 
不 能 进一步 改进 。 批 量 梯度 下 降 在 理论 上 比 随机 梯度 下 降 有 更 好 的 收敛 率 。 然 而 ， 
Crame6r-Rao 界限 (Cramekr, 1946; Rao, 1945) 指出 ， 泛 化 误差 的 下 降 速度 不 会 快 于 
O(f)。Bottou and Bousquet (2008b) 因此 认为 对 于 机 器 学 习 任 务 ， 不 值得 探寻 收敛 
快 于 O(f) 的 优化 算法 一 一 更 快 的 收敛 可 能 对 应 着 过 拟 合 。 此 外 ,， 渐 近 分 析 撼 盖 了 随 
机 梯度 下 降 在 少量 更 新 步 之 后 的 很 多 优点 。 对 于 大 数据 集 ，SGD 只 需 非 常 少量 样本 
计算 梯度 从 而 实现 初始 快速 更 新 ， 远 远 超 过 了 其 缓慢 的 渐 近 收敛 。 本 章 剩 余部 分 介 
绍 的 大 多 数 算 法 在 实践 中 都 受益 于 这 种 性 质 ， 但 是 损失 了 常数 倍 O(f) 的 渐 近 分 析 。 
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我 们 也 可 以 在 学 习 过 程 中 逐渐 增 大 小 批量 的 大 小 ， 以 此 权衡 批量 梯度 下 降 和 随机 梯 


度 下 降 两 者 的 优点 。 
了 解 SGD 更 多 的 信息 ， 请 查看 Bottou (1998)。 


8.3.2 ”动量 








虽然 随机 梯度 下 降 仍然 是 非常 受 欢 迎 的 优化 方法 ， 但 其 学 习 过 程 有 时 会 很 慢 。 
动量 方法 (Polyak, 1964) 导 在 加 速 学 习 ， 特 别 是 处 理 高 曲率 、 小 但 一 致 的 梯度 ， 或 是 
带 噪声 的 梯度 。 动 量 算法 积累 了 之 前 梯度 指数 级 衰减 的 移动 平均 ， 并 且 继续 沿 该 方 
向 移动 。 动 量 的 效果 如 图 8.5 所 示 。 
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图 8.5: 动量 的 主要 目的 是 解决 两 个 问题 : Hessian 抢 阵 的 病态 条 件 和 随机 梯度 的 方差 。 我 们 通 
过 此 图 说 明 动 量 如 何 欧 服 这 两 个 问题 的 第 一 个 。 等 高 线 描 绘 了 一 个 二 次 损失 函数 ( 具有 病态 条 








件 的 Hessian 矩阵 )。 横 跨 轮廓 的 红色 路 径 表 示 动 量 学 习 规 则 所 遵循 的 路 径 ， 它 使 该 机 数 最 小 化 。 
我 们 在 该 路 径 的 每 个 步骤 画 一 个 箭头 ， 表 示 梯 度 下 降 将 在 该 点 采取 的 步骤 。 我 们 可 以 看 到 ,一 个 病 
态 条件 的 二 次 目标 函数 看 起 来 像 一 个 长 而 窗 的 山谷 或 具有 陡峭 边 的 峡谷 。 动 量 正确 地 纵向 穿 过 峡 
谷 ， 而 普通 的 梯度 步骤 则 会 浪费 时 间 在 峡谷 的 罕 轴 上 来 回 移 动 。 比 较 图 4.6 ， 它 也 显示 了 没有 动 
量 的 梯度 下 降 的 行为 。 















































从 形式 上 看 ， 动 量 算法 引入 了 变量 v 充当 速度 角色 一 一 它 代 表 参 数 在 参数 空间 
移动 的 方向 和 速率 。 速 度 被 设 为 负 梯度 的 指数 衰减 平均 。 名 称 动量 (momentum ) 
来 自 物理 类 比 ， 根 据 牛顿 运动 定律 ， 负 梯度 是 移动 参数 空间 中 粒子 的 力 。 动 量 在 物 
理学 上 定义 为 质量 乘 以 速度 。 在 动量 学 习 算 法 中 ， 我 们 假设 是 单位 质量 ， 因 此 速度 
向 量 v 也 可 以 看 作 是 粒子 的 动量 。 超 参数 a e [0,1) 决定 了 之 前 梯度 的 贡献 衰减 得 有 
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多 快 。 更 新 规则 如 下 : 


二 QU 一 EV ,人 交 200;0)， 2 路 (8.15) 
0 二 0 二 V. (8.16) 


速度 v 累积 了 梯度 元 素 Ve( 寺 > 并 (Kxzt0;i0),V9))。 相 对 于 e，a 越 大 ,之 前 梯度 
对 现在 方向 的 影响 也 越 大 。 带 动量 的 SGD 算法 如 算法 8.2 所 示 。 


算法 8.2 使 用 动量 的 随机 梯度 下 降 〈SGD ) 

Require: 学 习 率 e， 动 量 参数 a 

Require: 初始 参数 06， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 mm 个 样本 {zt ,zz9} 的 小 批量 ， 对 应 目标 为 W9) 
计算 梯度 估计 : g 生 二 Ve> ,ZL(H(zt 六 9).31) 
计算 速度 更 新 : v 所 av 一 cg 
应 用 更 新 : 9 和 0 二 


end while 




















之 前 ， 步 长 只 是 梯度 范 数 乘 以 学 习 率 。 现 在 ， 步 长 取决 于 梯度 序列 的 大 小 和 排 
列 。 当 许多 连续 的 梯度 指向 相同 的 方向 时 ， 步 长 最 大 。 如 果 动 量 算法 总 是 观测 到 梯 
度 g， 那 么 它 会 在 方向 -9 上 不 停 加 速 ， 直 到 达到 最 终 速 度 ， 其 中 步 长 大 小 为 

el 

1 一 
因此 将 动量 的 超 参数 视 为 二 有 助 于 理解 。 例 如 ，a = 0.9 对 应 着 最 大 速度 10 倍 
于 梯度 下 降 算 法 。 

在 实践 中 ，ea 的 一 般 取 值 为 0.5，0.9 和 0.99。 和 学 习 率 一 样 ，a 也 会 随 着 时 间 
不 断 调整 。 一 般 初 始 值 是 一 个 较 小 的 值 ， 随 后 会 慢 慢 变 大 。 随 着 时 间 推 移 调整 a 没 
有 收缩 e 重要 。 

我 们 可 以 将 动量 算法 视 为 模拟 连续 时 间 下 牛顿 动力 学 下 的 粒子 。 这 种 物理 类 比 
有 助 于 直觉 上 理解 动量 和 梯度 下 降 算 法 是 如 何 表现 的 。 

粒子 在 任意 时 间 点 的 位 置 由 6( 食 给 定 。 粒 子 会 受到 净 力 丸和 )。 该 力 会 导致 粒子 
加 速 : 








(8.17) 











j 帮 0) = 号 8 人) (8.18) 
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与 其 将 其 视 为 位 置 的 二 阶 微分 方程 ， 我 们 不 如 引入 表示 粒子 在 时 间 上 处 速度 的 变量 
v( 臣 ， 将 牛顿 动力 学 重 写 为 一 阶 微分 方程 : 





ob = 呈 9()， (8.19) 
有 划 王 号 ab) (8.20) 


由 此 ,动量 算法 包括 通过 数值 模拟 求解 微分 方程 。 求 解 微分 方程 的 一 个 简单 数值 方 
法 是 欧 拉 方 法 ， 通 过 在 每 个 梯度 方向 上 小 且 有 限 的 步 来 简单 模拟 该 等 式 定义 的 动力 
学 。 

这 解释 了 动量 更 新 的 基本 形式 ， 但 具体 什么 是 力 呢 ? 力 正 比 于 代价 函数 的 负 梯 
度 -Ve7(6)。 该 力 推动 粒子 沿 着 代价 郧 数 表面 下 坡 的 方向 移动 。 梯 度 下 降 算 法 基于 
每 个 梯度 简单 地 更 新 一 步 ， 而 使 用 动量 算法 的 牛顿 方案 则 使 用 该 力 改变 粒子 的 速度 。 
我 们 可 以 将 粒子 视 作 在 冰 面 上 滑行 的 冰球 。 每 当 它 沿 着 表面 最 陡 的 部 分 下 降 时 ， 它 
会 累积 继续 在 该 方向 上 滑行 的 速度 ， 直 到 其 开始 向 上 滑动 为 止 。 

另 一 个 力也 是 必要 的 。 如 果 代 价 函 数 的 梯度 是 唯一 的 力 ， 那 么 粒子 可 能 永远 不 
会 停 下 来 。 想 象 一 下 ， 假 设 理想 情况 下 冰 面 没有 摩擦， 一 个 冰球 从 山谷 的 一 端 下 滑 ， 
上 升 到 妃 一 端 ， 永 远 来 回 振荡 。 要 解决 这 个 问题 ， 我 们 添加 另 一 个 正比 于 -vb) 的 
力 。 ee 此 力 对 应 于 粘性 阻力 ， 就 像 粒 子 必须 通过 一 个 抵抗 介质 ， 如 糖 
浆 。 这 会 导致 粒子 随 着 时 间 推 移 逐 渐 失 去 能 量 ， 最 终 收 敛 到 局 部 极 小 点 。 

为 什么 要 特别 使 用 -vb 和 粘性 阻力 呢 ? 部 分 原因 是 因为 -人 在 数学 上 的 便 
利 一 一 速度 的 整数 震 很 容易 处 理 。 然 而 ， 其 他 物理 系统 具有 基于 速度 的 其 他 整数 寡 
的 其 他 类 型 的 阻力 。 例 如 ， 颗 粒 通过 空气 时 会 受到 正比 于 速度 平方 的 庙 流 阻力 ， 而 颗 
粒 沿 着 地 面 移动 时 会 受到 恒定 大 小 的 摩擦 力 。 这 些 选 择 都 不 合适 。 消 流 阻力 , 正比 于 
速度 的 平方 ， 在 速度 很 小 时 会 很 弱 。 不 够 强 到 使 粒子 停 下 来 。 非 零 值 初始 速度 的 粒 
子 仅 受 到 庙 流 阻力 ， 会 从 初始 位 置 永远 地 移动 下 去 ， 和 初始 位 置 的 距离 大 概 正比 于 

Oflog 习 。 因 此 我 们 必须 使 用 速度 较 低 寡 次 的 力 。 如 果 老 次 为 去， 相当 于 干 摩擦 ， 那 
么 力 太 强 了 。 当 代价 函数 的 梯度 表示 的 力 很 小 但 非 零 时 ， 由 于 摩擦 导致 的 恒 力 会 使 
得 粒子 在 达到 局 部 极 小 点 之 前 就 停 下 来 。 粘 性 阻力 避免 了 这 两 个 问题 
可 以 使 梯度 引起 的 运动 直到 达到 最 小 ,但 又 足够 强 ， 使 得 坡度 不 够 时 可 以 阻止 运动 。 
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8.3.3 ”Nesterov 动量 


受 Nesterov 加 速 梯度 算法 (Nesterov, 1983, 2004) 启发 ，Sutskever et al. (2013) 
提出 了 动量 算法 的 一 个 变种 。 这 种 情况 的 更 新 规则 如 下 : 


?7 


1 
工 (人 .0 ( .21 
4 二 au 一 eVe6 人 (Ko 十 ao) )| ， (8.21) 


| 


8 二 0+， (8.22) 











其 中 参数 c 和 e 发 挥 了 和 标准 动量 方法 中 类 似 的 作用 。Nesterov 动量 和 标准 动量 之 
间 的 区 别 体现 在 梯度 计算 上 。Nesterov 动量 中 , 梯度 计算 在 施加 当前 速度 之 后 。 因此 ， 
Nesterorv 动量 可 以 解释 为 往 标 准 动量 方法 中 添加 了 一 个 校正 因子 。 完 整 的 Nesterov 
动量 算法 如 算法 8.3 所 示 。 


算法 8.3 使 用 Nesterorv 动量 的 随机 梯度 下 降 (SGD ) 

Require: 学 习 率 e， 动 量 参数 a 

Require: 初始 参数 6， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 mm 个 样本 {z), ,zeo1 的 小 批量 ， 对 应 目标 为 Vi2)。 
应 用 临时 更 新 : 0 二 0 + av 
计算 梯度 (在 临时 点 ) 9g 二 二 V5;,ZL(A(z;0), VD) 
计算 速度 更 新 : v 入 av 一 cg 
应 用 更 新 : 0 和 0 二 


end while 














在 凸 批量 梯度 的 情况 下 ，Nesterov 动量 将 额外 误差 收敛 率 从 O(1/) (无 步 后 ) 
改进 到 O(1/ 妇 )， 如 Nesterov (1983) 所 示 。 可 惜 ， 在 随机 梯度 的 情况 下 ，Nesterov 
动量 没有 改进 收敛 率 。 
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有 些 优化 算法 本 质 上 是 非 和 欠 代 的 ， 只 是 求解 一 个 解 点 。 有 些 其 它 优化 算法 本 质 
上 是 迭代 的 ， 但 是 应 用 于 这 一 类 的 优化 问题 时 ， 能 在 可 接受 的 时 间 内 收敛 到 可 接受 
的 解 ， 并 且 与 初始 值 无 关 。 深 度 学 习 训 练 算法 通常 没有 这 两 种 奢 修 的 性 质 。 深 度 学 
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习 模 型 的 训练 算法 通常 是 欠 代 的 ， 因 此 要 求 使 用 者 指定 一 些 开 始 迭 代 的 初始 点 。 此 
外 ， 训 练 深度 模型 是 一 个 足够 困难 的 问题 ， 以 致 于 大 多 数 算法 都 很 大 程度 地 受到 初 
台 化 选择 的 影响 。 初 始点 能 够 决定 算法 是 否 收敛 ， 有 些 初 始点 十 分 不 稳定 ， 使 得 该 
算法 会 遭遇 数值 困难 ， 并 完全 失败 。 当 学 习 收 敛 时 ， 初 始点 可 以 决定 学 习 收 敛 得 多 
快 ， 以 及 是 否 收敛 到 一 个 代价 高 或 低 的 点 。 此 外 ， 差 不 多 代价 的 点 可 以 具有 区 别 极 
大 的 泛 化 误差 ， 初 始点 也 可 以 影响 泛 化 。 

现代 的 初始 化 策略 是 简单 的 、 启 发 式 的 。 设 定 改进 的 初始 化 策略 是 一 项 困难 的 
任务 ， 因 为 神经 网 络 优化 至 今 还 未 被 很 好 地 理解 。 大 多 数 初始 化 策略 基于 在 神经 网 
络 初 始 化 时 实现 一 些 很 好 的 性 质 。 然而, 我 们 并 没有 很 好 地 理解 这 些 性 质 中 的 哪些 会 























观点 看 或 许 是 有 利 的 ， 但 是 从 泛 化 的 观点 看 是 不 利 的 。 我 们 对 于 初始 点 如 何 影 响 泛 
化 的 理解 是 相当 原始 的 ， 几 乎 没有 提供 如 何 选择 初始 点 的 任何 指导 。 

也 许 完全 确 知 的 唯一 特性 是 初始 参数 需要 在 不 同 单元 间 “ 破 坏 对 称 性 ”。 如 果 具 
有 相同 激活 函数 的 两 个 隐藏 单 元 连接 到 相同 的 输入 ， 那 么 这 些 单元 必须 具有 不 同 的 
初始 参数 。 如 果 它 们 具有 相同 的 初始 参数 ， 然 后 应 用 到 确定 性 损失 和 模型 的 确定 性 
学 习 算 法 将 一 直 以 相同 的 方式 更 新 这 两 个 单元 。 即 使 模型 或 训练 算法 能 够 使 用 随机 
性 为 不 同 的 单元 计算 不 同 的 更 新 〈 例 如 使 用 Dropout 的 训练 )， 通 常 来 说 ， 最 好 还 是 
初始 化 每 个 单元 使 其 和 其 他 单元 计算 不 同 的 函数 。 这 或 许 有 助 于 确保 没有 输入 模式 
丢失 在 前 向 传播 的 零 空 间 中 ， 没 有 梯度 模式 丢失 在 反 向 传播 的 零 空间 中 。 每 个 单元 
计算 不 同 冰 数 的 目标 促使 了 参数 的 随机 初始 化 。 我 们 可 以 明确 地 搜索 一 大 组 彼此 互 
不 相同 的 基 数 ， 但 这 经 常会 导致 明 显 的 计算 代价 。 例 如 ， 如 果 我 们 有 和 输出 一 样 
多 的 输入 ， 我 们 可 以 使 用 Gram-Schmidt 正 交 化 于 初始 的 权重 矩阵 ， 保 证 每 个 单元 
计算 彼此 非常 不 同 的 函数 。 在 高 维 空间 上 使 用 高 简 分 布 来 随机 初始 化 ， 计 算 代价 小 
并 且 不 太 可 能 分 配 单元 计算 彼此 相同 的 函数 。 

通常 情况 下 ， 我 们 可 以 为 每 个 单元 的 偶 置 设置 启发 式 挑 选 的 常数 ， 仅 随机 初始 
化 权重 。 额 外 的 参数 (例如 用 于 编码 预测 条 件 方差 的 参数 ) 通常 和 信 置 一 样 设置 为 
局 发 式 选择 的 常数 。 

我 们 几乎 总 是 初始 化 模型 的 权重 为 高 斯 或 均匀 分 布 中 随机 抽取 的 值 。 高 斯 或 均 
匀 分 布 的 选择 似乎 不 会 有 很 大 的 差别 ， 但 也 没有 被 详尽 地 研究 。 然 而 ， 初 始 分 布 的 
大 小 确实 对 优化 过 程 的 结果 和 网 络 泛 化 能 力 都 有 很 大 的 影响 。 

更 大 的 初始 权重 具有 更 强 的 破坏 对 称 性 的 作用 ， 有 助 于 避免 元 余 的 单元 。 它 们 
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也 有 助 于 避免 在 每 层 线性 成 分 的 前 向 或 反 向 传播 中 丢失 信号 一 -矩阵 中 更 大 的 值 在 
和 矩阵 乘法 中 有 更 大 的 输出 。 如 果 初 始 权 重大 大， 那么 会 在 前 向 传播 或 反 向 传播 中 六 
生 爆 炸 的 值 。 在 循环 网 络 中 ， 很 大 的 权重 也 可 能 导致 混沌 (chaos ) ( 对 于 输入 中 很 
小 的 扰 动 非常 敏感 ， 导 致 确定 性 前 向 传播 过 程 表 现 随机 )。 在 一 定 程度 上 ， 梯 度 爆 炸 
问题 可 以 通过 梯度 截断 来 缓解 〈 执行 梯度 下 降 步骤 之 前 设置 梯度 的 闽 值 )。 较 大 的 权 
重 也 会 产生 使 得 激活 函数 饱和 的 值 ， 导 致 伯 和 单元 的 梯度 完全 丢失 。 这 些 竞 争 因素 
决定 了 权重 的 理想 初始 大 小 。 

关于 如 何 初始 化 网 络 ， 正 则 化 和 优化 有 着 非常 不 同 的 观点 。 优 化 观点 建议 权重 
应 该 足够 大 以 成 功 传播 信息 ， 但 是 正则 化 希望 其 小 一 点 。 诸 如 随机 梯度 下 降 这 类 对 
权重 较 小 的 增 量 更 新 ， 趋 于 停止 在 更 靠近 初始 参数 的 区 域 (不 管 是 由 于 卡 在 低 梯度 
的 区 域 ， 还 是 由 于 触发 了 基于 过 拟 合 的 提前 终止 准则 ) 的 优化 算法 倾向 于 最 终 参数 
应 接近 于 初始 参数 。 回 顾 第 7.8 节 ， 在 某 些 模型 上 ， 提 前 终止 的 梯度 下 降 等 价 于 权重 
衰减 。 在 一 般 情 况 下 ， 提 前 终止 的 梯度 下 降 和 权重 衰减 不 同 ， 但 是 提供 了 一 个 宽松 
的 类 比 去 考虑 初始 化 的 影响 。 我 们 可 以 将 初始 化 参数 8 为 6 类比 于 强 置 均值 为 6o 
的 高 斯 先 验 p(9)。 从 这 个 角度 来 看 ,选择 0 接近 0 是 有 道理 的 。 这 个 先 验 表 明 , 单 
元 间 彼 此 互 不 交互 比 交 互 更 有 可 能 。 只 有 在 目标 函数 的 似 然 项 表达 出 对 交互 很 强 的 
偏好 时 ， 单 元 才 会 交互 。 另 一 方面 ， 如 果 我 们 初始 化 6 为 很 大 的 值 ， 那 么 我 们 的 先 
验 指 定 了 哪些 单元 应 互相 交互 ， 以 及 它们 应 如 何 交 互 。 

有 些 启 发 式 方法 可 用 于 选择 权重 的 初始 大 小 。 一 种 初始 化 mm 个 输入 和 m 输出 
的 全 连接 层 的 权重 的 启发 式 方法 是 从 分 布 C(- 误 , 遍 ) 中 采样 权重 ， 而 Glorot and 
Bengio (2010) 建议 使 用 标准 初始 化 (normalized initialization ) 


mv 区 


后 一 种 启发 式 方法 初始 化 所 有 的 层 ， 折 囊 于 使 其 具有 相同 激活 方差 和 使 其 具有 相同 
梯度 方差 之 间 。 这 假设 网 络 是 不 含 非 线 性 的 链 式 矩 阵 乘 法 ， 据 此 推导 得 出 。 现 实 的 神 
经 网 络 显然 会 违反 这 个 假设 ， 但 很 多 设计 于 线性 模型 的 策略 在 其 非 线性 对 应 中 的 效 
果 也 不 错 。 

Saxe et of. (2013) 推荐 初始 化 为 随机 正 交 矩阵， 仔细 挑选 负责 每 一 层 非 线性 缩 
放 或 增益 (gain) 因子 g。 他 们 得 到 了 用 于 不 同类 型 的 非 线性 激活 函数 的 特定 缩放 因 
子 。 这 种 初始 化 方案 也 是 启发 于 不 含 非 线性 的 和 矩阵 相 乘 序列 的 深度 网 络 。 在 该 模型 
下 ， 这 个 初始 化 方案 保证 了 达到 收敛 所 需 的 训练 闪 代 总 数 独立 于 深度 。 
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增加 缩放 因子 9 将 网 络 推 向 网 络 前 向 传播 时 激活 范 数 增加 ， 反 向 传播 时 梯度 范 
数 增加 的 区 域 。Sussillo (2014) 表明 ， 正 确 设置 缩放 因子 足以 训练 深 达 1000 层 的 网 
络 ， 而 不 需要 使 用 正 交 初始 化 。 这 种 方法 的 一 个 重要 观点 是 ， 在 前 馈 网 络 中 ， 激 活 
和 梯度 会 在 每 一 步 前 向 传播 或 反 向 传播 中 增加 或 缩小 ， 遵 循 随 机 游 走行 为 。 这 是 因 
为 前 馈 网 络 在 每 一 层 使 用 了 不 同 的 权重 矩阵 。 如 果 该 随机 游 走 调整 到 保持 范 数 ， 那 
么 前 馈 网 络 能 够 很 大 程度 地 避免 相同 权重 矩阵 用 于 每 层 的 梯度 消失 与 爆炸 问题 ， 如 
第 8.2.5 节 所 述 。 

可 惜 ， 这 些 初始 权重 的 最 佳 准则 往往 不 会 带 来 最 佳 效果 。 这 可 能 有 三 种 不 同 的 
原因 。 首 先 ， 我 们 可 能 使 用 了 错误 的 标准 一 一 它 实 际 上 并 不 利于 保持 整个 网 络 信和 号 
的 范 数 。 其 次 ， 初 始 化 时 强加 的 性 质 可 能 在 学 习 开 始 进行 后 不 能 保持 。 最 后 ， 该 标 
准 可 能 成 功 提 高 了 优化 速度 ， 但 意外 地 增 大 了 泛 化 误差 。 在 实践 中 ,我 们 通常 需要 
将 权重 范围 视 为 超 参 数 ， 其 最 优 值 大 致 接近 ， 但 并 不 完全 等 于 理论 预测 。 

数值 范围 准则 的 一 个 缺点 是 ， 设 置 所 有 的 初始 权重 具有 相同 的 标准 差 ， 例 如 
上 高 ， 会 使 得 层 很 大 时 每 个 单一 权重 会 变 得 极其 小 。Martens (2010) 提出 了 一 种 被 称 
为 稀疏 初始 化 〈sparse initialization ) 的 替代 方案 ， 每 个 单元 初始 化 为 恰好 有 个 
非 零 权重 。 这 个 想法 保持 该 单元 输入 的 总 数量 独立 于 输入 数目 办 ， 而 不 使 单一 权重 
元 素 的 大 小 随 mm 缩小 。 稀 玻 初 始 化 有 助 于 实现 单元 之 间 在 初始 化 时 更 具 多 样 性 。 但 
是 ， 获 得 较 大 取 值 的 权重 也 同时 被 加 了 很 强 的 先 验 。 因 为 梯度 下 降 需 要 很 长 时 间 缩 
小 “不 正确 ”的 大 值 ， 这 个 初始 化 方案 可 能 会 导致 某 些 单元 出 问题 ， 例 如 maxout 单 
元 有 几 个 过 滤器 ， 互 相 之 间 必 须 仔细 调整 。 

计算 资源 允许 的 话 , 将 每 层 权 重 的 初始 数值 范围 设 为 超 参 数 通 常 是 个 好 主意 , 使 
用 第 11.4.2 节 介绍 的 超 参 数 搜索 算法 ， 如 随机 搜索 ,挑选 这 些 数 值 范围 。 是 否 选择 使 
用 密集 或 稀疏 初始 化 也 可 以 设 为 一 个 超 参数 。 作 为 奉 代 ， 我 们 可 以 手动 搜索 最 优 初 
台 范 围 。 一 个 好 的 挑选 初始 数值 范围 的 经 验 法 则 是 观测 单个 小 批量 数据 上 的 激活 或 
梯度 的 幅度 或 标准 差 。 如 果 权 重 太 小 ， 那 么 当 激活 值 在 小 批量 上 前 向 传播 于 网 络 时 ， 
激活 值 的 幅度 会 缩小 。 通 过 重复 识别 具有 小 得 不 可 接受 的 激活 值 的 第 一 层 ， 并 提高 
其 权重 ， 最 终 有 可 能 得 到 一 个 初始 激活 全 部 合理 的 网 络 。 如 果 学 习 在 这 点 上 仍然 很 
慢 ， 观 测 梯度 的 幅度 或 标准 差 可 能 也 会 有 所 帮助 。 这 个 过 程 原 则 上 是 自动 的 ， 且 通 
常 计算 量 低 于 基于 验证 集 误差 的 超 参 数 优化 ， 因 为 它 是 基于 初始 模型 在 单 批 数据 上 
的 行为 反馈 ， 而 不 是 在 验证 集 上 训练 模型 的 反馈 。 由 于 这 个 协议 很 长 时 间 都 被 启发 
式 使 用 ， 最 近 Mishkin and Matas (2015) 更 正式 地 研究 了 该 协议 。 

目前 为 止 ， 我 们 关注 在 权重 的 初始 化 上 。 幸 运 的 是 ， 其 他 参数 的 初始 化 通常 更 
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容易 。 


初始 


设置 俩 置 的 方法 必须 和 设置 权重 的 方法 协调 。 设 置 侦 置 为 零 通常 在 大 多 数 权重 
化 方案 中 是 可 行 的 。 存 在 一 些 我 们 可 能 设置 侦 置 为 非 零 值 的 情况 : 




















如 果 侦 置 是 作为 输出 单元 ， 那 么 初始 化 俩 置 以 获取 正确 的 输出 边缘 统计 通常 是 
有 利 的 。 要 做 到 这 一 点 ， 我 们 假设 初始 权重 足够 小 ， 该 单元 的 输出 仅 由 侦 置 决 
定 。 这 说 明 设 置 俩 置 为 应 用 于 训练 集 上 输出 边缘 统计 的 激活 函数 的 着。 例如 ， 
如 果 输 出 是 类 上 的 分 布 ， 且 该 分 布 是 高 度 侦 态 分 布 ， 第 类 的 边缘 概率 由 某 个 
向 量 e 的 第 ;个 元 素 给 定 ， 那 么 我 们 可 以 通过 求解 方程 softmax(b) = c 来 设 
置 俩 置 向 量 pg。 这 不 仅 适 用 于 分 类 器 ， 也 适用 于 我 们 将 在 第 三 部 分 遇 到 的 模型 ， 
例如 自 编码 恬 和 玻 尔 效 曼 机 。 这 些 模型 拥有 输出 类 似 于 输入 数据 z 的 网 络 层 ， 
非常 有 助 于 初始 化 这 些 层 的 俩 置 以 匹配 z 上 的 边缘 分 布 。 


有 时 ， 我 们 可 能 想 要 选择 偏 置 以 避免 初始 化 引起 太 大 饱和 。 人 例如， 我们 可 能 会 
将 ReLU 的 隐藏 单元 设 为 0.1 而 非 0， 以 避免 ReLU 在 初始 化 时 饱和 。 尽 管 这 
种 方法 违背 不 希望 偏 置 具有 很 强 输入 的 权重 初始 化 准则 。 例 如 ， 不 建议 使 用 随 
机 游 走 初始 化 (Sussilo, 2014)。 


有 时 ， 一 个 单元 会 控制 其 他 单元 能 和 否 参与 到 等 式 中 。 在 这 种 情况 下 ， 我 们 有 
一 个 单元 输出 ， 另 一 个 单元 六 e [0,1， 那 么 我 们 可 以 将 天 视 作 门 ， 以 决定 
帮 久 1 还 是 wps 0。 在 这 种 情形 下 ,我们 和 希望 设置 偏 置 六 ， 使 得 在 初始 化 的 大 
多 数 情 况 下 户 1。 否则， 没有 机 会 学 习 。 例 如 ，Jozefowicz et oL. (2015) 提 
议 设置 LSTM 模型 遗忘 门 的 偏 置 为 1， 如 第 10.10 所 述 。 
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另 一 种 常见 类 型 的 参数 是 方差 或 精确 度 参 数 。 例 如 ， 我 们 用 以 下 模型 进行 带 条 





件 方差 佑 计 的 线性 回归 





输出 


D(V 2) 一人 AU 也 2 十 ， 1/D)， (8.24) 


其 中 8 是 精确 度 参 数 。 通 常 我 们 能 安全 地 初始 化 方差 或 精确 度 参 数 为 1。 另 一 种 方 
法 假 


设 初始 权重 足够 接近 零 ， 设 置 偏 置 可 以 忽略 权重 的 影响 ， 然 后 设 定 侦 置 以 产生 
的 正确 边缘 均值 ， 并 将 方差 参数 设置 为 训练 集 输出 的 边缘 方差 。 
除了 这 些 初始 化 模型 参数 的 简单 常数 或 随机 方法 ， 还 有 可 能 使 用 机 顺 学 习 初 始 











化 模型 参数 。 在 本 书 第 三 部 分 讨论 的 一 个 常用 策略 是 使 用 相同 的 输入 数据 集 ， 用 无 
监督 模型 训练 出 来 的 参数 来 初始 化 监督 模型 。 我 们 也 可 以 在 相关 问题 上 使 用 监督 训 
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练 。 即 使 是 在 一 个 不 相关 的 任务 上 运行 监督 训练 ， 有 时 也 能 得 到 一 个 比 随 机 初始 化 
具有 更 快 收敛 率 的 初始 值 。 这 些 初始 化 策略 有 些 能 够 得 到 更 快 的 收敛 率 和 更 好 的 泛 
化 误差 ， 因 为 它们 编码 了 模型 初始 参数 的 分 布 信息 。 其 他 策略 显然 效果 不 错 的 原因 
主要 在 于 它们 设置 参数 为 正确 的 数值 范围 ， 或 是 设置 不 同 单元 计算 互相 不 同 的 函数 。 








8.5 自 适 应 学 习 率 算法 


神经 网 络 研 究 员 早 就 意识 到 学 习 率 肯定 是 难以 设置 的 超 参 数 之 一 ， 因 为 它 对 模 
型 的 性 能 有 显著 的 影响 。 正 如 我 们 在 第 4.3 节 和 第 8.2 节 中 所 探讨 的 ， 损 失 通 常 高 度 
敏感 于 参数 空间 中 的 某 些 方向 ， 而 不 敏感 于 其 他 。 动 量 算法 可 以 在 一 定 程度 缓解 这 
些 问 题 ， 但 这 样 做 的 代价 是 引入 了 另 一 个 超 参数 。 在 这 种 情况 下 ， 自 然 会 问 有 没有 
其 他 方法 。 如 果 我 们 相信 方向 敏感 度 在 某 种 程度 是 轴 对 齐 的， 那么 每 个 参数 设置 不 
同 的 学 习 率 ， 在 整个 学 习 过 程 中 自动 适应 这 些 学 习 率 是 有 道理 的 。 

Delta-bar-delta 算法 (Jacobs, 1988) 是 一 个 早期 的 在 训练 时 适应 模型 参数 各 
自学 习 率 的 启发 式 方法 。 该 方法 基于 一 个 很 简单 的 想法 ， 如 果 损 失 对 于 某 个 给 定 模 
型 参数 的 偏 导 保持 相同 的 符号 ， 那 么 学 习 率 应 该 增加 。 如 果 对 于 该 参数 的 偏 导 变 化 
了 符号 ， 那 么 学 习 率 应 减 小 。 当 然 ， 这 种 方法 只 能 应 用 于 全 批量 优化 中 。 

最 近 ， 提 出 了 一 些 增 量 (或 者 基于 小 批量 ) 的 算法 来 自 适应 模型 参数 的 学 习 率 。 
这 节 将 简要 回顾 其 中 一 些 算法 。 












































8.5.1 AdaGrad 


AdaGrad 算法 ， 如 算法 8.4 所 示 ， 独 立地 适应 所 有 模型 参数 的 学 习 率 ， 缩 放 每 
个 参数 反比 于 其 所 有 梯度 历史 平方 值 总 和 的 平方 根 (Duchi et al., 2011)。 具 有 损失 
最 大 偏 导 的 参数 相应 地 有 一 个 快速 下 降 的 学 习 率 ， 而 具有 小 仿 导 的 参数 在 学 习 率 上 
有 相对 较 小 的 下 降 。 净 效果 是 在 参数 空间 中 更 为 平缓 的 倾斜 方向 会 取得 更 大 的 进步 。 

在 凸 优化 背景 中 ，AdaGrad 算法 具有 一 些 令 人 满意 的 理论 性 质 。 然 而 ， 经 验 上 
已 经 发 现 ， 对 于 训练 深度 神经 网 络 模型 而 言 ， 从 训练 开始 时 积累 梯度 平方 会 导致 有 
效 学 习 率 过 早 和 过 量 的 减 小 。AdaGrad 在 某 些 深度 学 习 模 型 上 效果 不 错 ， 但 不 是 全 
部 。 





262 第 和 八 章 深度 模型 中 的 优化 


算法 8.4 AdaGrad 算法 
Require: 全 局 学 习 率 e 
Require: 初始 参数 0 
Require: 小 常数 5， 为 了 数值 稳定 大 约 设 为 10-” 
初始 化 梯度 累积 变量 ”= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 mn 个 样本 {fz0, ,zt 的 小 批量 ， 对 应 目标 为 V9 。 
计算 梯度 : 9 生 寺 Ve 2 (zi0),U9) 
累积 平方 梯度 : "二 r+9g9O9 
计算 更 新 : Ab 生 一 水 关 O9 (〈 逐 元 素 地 应 用 除 和 求 平 方 根 ) 
应 用 更 新 : 0 二 9 十 Ab 


end while 




















8.5.2 及 MSProp 


RMSProp 算法 (Hinton, 2012) 修改 AdaGrad 以 在 非 凸 设 定 下 效果 更 好 ， 改 
变 梯度 积累 为 指数 加 权 的 移动 平均 。AdaGrad 旨 在 应 用 于 凸 问题 时 快速 收 信 。 当 应 
用 于 非 凸 函数 训练 神经 网 络 时 ， 学 习 轨 迹 可 能 穿 过 了 很 多 不 同 的 结构 ， 最 终 到 达 一 
个 局 部 是 凸 碗 的 区 域 。AdaGrad 根据 平方 梯度 的 整个 历史 收缩 学 习 率 ， 可 能 使 得 学 
习 率 在 达到 这 样 的 凸 结构 前 就 变 得 大小 了 。RMSProp 使 用 指数 衰减 平均 以 丢弃 遥远 
过 去 的 历史 ， 使 其 能 够 在 找到 凸 硫 状 结构 后 快速 收敛 ， 它 就 像 一 个 初始 化 于 该 碗 状 
结构 的 AdaGrad 算法 实例 。 

RMSProp 的 标准 形式 如 算法 8.5 所 示 ， 结 合 Nesterov 动量 的 形式 如 算法 8.6 所 
示 。 相 比 于 AdaGrad， 使 用 移动 平均 引入 了 一 个 新 的 超 参数 p， 用 来 控制 移动 平均 的 
长 度 范围 。 

经 验 上 ，RMSProp 已 被 证 明 是 一 种 有 效 且 实用 的 深度 神经 网 络 优化 算法 。 目 前 
它 是 深度 学 习 从 业者 经 常 采 用 的 优化 方法 之 一 。 














8.5.3 ” Adam 


Adam (Kingma and Ba, 2014) 是 另 一 种 学 习 率 自 适 应 的 优化 算法 ,如 算法 8.7 所 
示 。“Adam” 这 个 名 字 派 生 自 短语 “adaptive moments”。 早 期 算法 背景 下 ， 它 也 许 
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算法 8.5 RMSProp 算法 
Require: 全 局 学 习 率 ec， 衰减 速率 p 
Require: 初始 参数 0 
Require: 小 常数 5， 通 常设 为 10-5 ( 用 于 被 小 数 除 时 的 数值 稳定 ) 
初始 化 累积 变量 ”= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 mm 个 样本 {z,... ,zol 的 小 批量 ， 对 应 目标 为 VD 。 
计算 梯度 : 9 二 去 Ve > ;LA(z;9),VY9) 
累积 平方 梯度 : "所 or+(L 一 p)9@O9 
计算 参数 更 新 : A8 = -和 O9g (二 逐 元 素 应 用 ) 
应 用 更 新 : 0 二 0 二 Ab 


end while 

















最 好 被 看 作 结 合 RMSProp 和 具有 一 些 重要 区 别 的 动量 的 变种 。 首 先 ,在 Adam 中 ， 
动量 直接 并 和 人 了 梯度 一 阶 矩 〈 指 数 加 权 ) 的 估计 。 将 动量 加 入 RMSProp 最 直观 的 
方法 是 将 动量 应 用 于 缩放 后 的 梯度 。 结 合 缩放 的 动量 使 用 没有 明确 的 理论 动机 。 其 
次 ，Adam 包括 俩 置 修正 ,修正 从 原点 初始 化 的 一 阶 矩 〈 动量 项 ) 和 【 非 中 心 的 ) 二 
阶 矩 的 佑 计 《〈 算 法 8.7 )。 RMSProp 也 采用 了 【〈 非 中 心 的 ) 二 阶 矩 舍 计 ， 然 而 缺失 了 
修正 因子 。 因 此 , 不 像 Adam，RMSProp 二 阶 矩 估计 可 能 在 训练 初期 有 很 高 的 偏 置 。 
Adam 通常 被 认为 对 超 参数 的 选择 相当 鲁 棒 ， 尽 管 学 习 率 有 时 需要 从 建议 的 默认 修 
改 。 























8.5.4 选择 正确 的 优化 算法 


在 本 节 中 ， 我 们 讨论 了 一 系列 算法 ， 通 过 自 适 应 每 个 模型 参数 的 学 习 率 以 解决 
优化 深度 模型 中 的 难题 。 此 时 ， 一 个 自然 的 问题 是 : 该 选择 哪 种 算法 呢 ? 

遗憾 的 是 ， 目 前 在 这 一 点 上 没有 达成 共识 。Schaul et o/. (2014) 展示 了 许多 优 
化 算法 在 大 量 学 习 任务 上 极 具 价值 的 比较 。 虽 然 结果 表明 ， 具 有 自 适 应 学 习 率 (以 
RMSProp 和 AdaDelta 为 代表 ) 的 算法 族 表现 得 相当 和 鲁 棒 ， 不 分 伯仲 ， 但 没有 哪个 
算法 能 脱颖而出 。 

目前 ， 最 流行 并 且 使 用 很 高 的 优化 算法 包括 SGD 、 具 动量 的 SGD 、RMSProp、 
具 动 量 的 RMSProp 、AdaDelta 和 Adam。 此 时 ， 选 择 哪 一 个 算法 似乎 主要 取决 于 
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算法 8.6 使 用 Nesterov 动 量 的 RMSProp 算法 
Redquire: 全 局 学 习 率 e， 误 减速 率 0， 动量 系数 aw 
Require: 初始 参数 9， 初始 参数 v 
初始 化 累积 变量 ”= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 mm 个 样本 {fz9, ,zt 的 小 批量 ， 对 应 目标 为 V9 。 
计算 临时 更 新 : 6 二 0 + avw 
计算 梯度 : g 人 二 寺 V5 ;ZL(HzGOi0), VD) 
累积 梯度 : "所 pr 二 (1 一 p)9@9 
计算 速度 更 新 : 入 av 一 六 D9 ( 专 逐 元 素 应 用 ) 
应 用 更 新 : 0 二 0O+w 


end while 

















使 用 者 对 算法 的 熟悉 程度 (以便 调 节 超 参数 )。 
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算法 8.7 Adam 算法 

Require: 步 长 e (建议 默认 为 : 0.001 ) 

Require: 和 天 估 计 的 指数 衰减 速率 ，pl 和 ps 在 区 间 [0,1) 内 。 (建议 默认 为 : 分 别 


为 0.9 和 0.999 ) 
Require: 用 于 数值 稳定 的 小 常数 6 (建议 默认 为 : 10-8 ) 
Require: 初始 参数 0 
初始 化 一 阶 和 二 阶 矩 变量 s= 0, =0 
初始 化 时 间 步 二 = 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 {fz,. ,zxo0} 的 小 批量 ， 对 应 目标 
计算 梯度 : g 二 寺 Ve ;ZL(A(zO; ga 
tt 十 工 
更 新 有 偏 一 阶 窍 估计 : s 二 pis+( 一 p)9 
更 新 有 偏 二 阶 矩 估计 : ”所 par 二 (1--pa)gO9g 
修正 一 阶 窍 的 偏差 : 8 二 元 2 


民 扩 
修正 二 阶 算 的 偏差 : 让 人- 工艺 
计算 更 新 ，Ab = <- 过。 ( 逐 元 素 应 用 操作 
应 用 更 新 : 9 二 0 十 Ab 


end while 
























































为 Y0)。 





8.6 ”二 阶 近似 方法 


在 本 节 中 , 我 们 会 讨论 训练 深度 神经 网 络 的 二 阶 方法 。 参 考 LeCun 


et al. (1998a) 


了 解 该 问题 的 早期 处 理 方法 。 为 表述 简单 起 见 ， 我 们 只 考察 目标 函数 为 经 验 风 险 : 











T(6) = eyeeaEU(Gg 加 = 元 2 Laoi0,99)， 





然而 ， 我 们 在 这 里 讨论 的 方法 很 容易 扩展 到 更 一 般 的 目标 函数 ， 例 如 ， 
的 包括 参数 正则 项 的 函数 。 


(8.25) 


第 七 章 讨 论 
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8.6.1 “牛顿 法 

在 第 4.3 节 ， 我 们 介绍 了 二 阶梯 度 方 法 。 与 一 阶 方法 相 比 ， 二 阶 方法 使 用 二 阶 导 
数 改进 了 优化 。 最 广泛 使 用 的 二 阶 方法 是 牛顿 法 。 我 们 现在 更 详细 地 描述 牛顿 法 , 重 
点 在 其 应 用 于 神经 网 络 的 训练 。 

牛顿 法 是 基于 二 阶 泰勒 级 数 展开 在 某 点 go 附近 来 近似 J(6) 的 优化 方法 ， 其 忽 
略 了 高 阶 导 数 : 











J(@)s Tb)+(9- grve7(go)+5(-o)THO 6) (820) 





其 中 刀 是 了 相对 于 6 的 Hessian 和 矩阵 在 6 处 的 估计 。 如 果 我 们 再 求解 这 个 函数 
的 临界 点 ， 我 们 将 得 到 牛顿 参数 更 新 规则 : 





0 一 0 一 万 TVoJ(0o). (8.27) 


因此 ， 对 于 局 部 的 二 次 函数 (具有 正定 的 瑟 ), 用 五 :重新 调整 梯度 ， 牛 顿 法 会 直 
接 跳 到 极 小 值 。 如 果 目 标 函 数 是 凸 的 但 非 二 次 的 (有 高 阶 项 )， 该 更 新 将 是 和 迭 代 的 ， 
得 到 和 和 牛顿 法 相关 的 算法 ， 如 算法 8.8 所 示 。 

对 于 非 二 次 的 表面 ， 只 要 Hessian 和 矩阵 保持 正定 ， 牛 顿 法 能 够 闪 代 地 应 用 。 这 意 
味 着 一 个 两 步 迭 代 过 程 。 首 先 ， 更 新 或 计算 Hessian 逆 〈 通 过 更 新 二 阶 近似 )。 其 次 
根据 式 (8.27) 更 新 参数 。 

在 第 8.2.3 节 ， 我 们 讨论 了 牛顿 法 只 适用 于 Hessian 矩阵 是 正定 的 情况 。 在 深度 
学 习 中 ， 目 标 函 数 的 表面 通常 非 凸 (有 很 多 特征 )， 如 鞍点 。 因 此 使 用 牛顿 法 是 有 问 
题 的 。 如 果 Hessian 抢 阵 的 特征 值 并 不 都 是 正 的 ， 例 如 ， 人 靠近 鞍点 处 ， 牛 顿 法 实际 上 
会 导致 更 新 阴 错 误 的 方向 移动 。 这 种 情况 可 以 通过 正则 化 Hessian 矩阵 来 避免 。 常 用 
的 正则 化 策略 包括 在 Hessian 和 矩 阵 对 角 线 上 增加 常数 w。 正 则 化 更 新 变 为 
































久 =9 一 [本 (78o) 二 oo Ve76o) (8.28) 


这 个 正则 化 策略 用 于 牛顿 法 的 近似 ， 例 如 Levenberg-Marquardt 算法 (Levenberg， 
1944; Marquardt，1963)， 只 要 Hessian 抢 阵 的 负 特 征 值 仍然 相对 接近 零 ， 效 果 就 会 
很 好 。 在 曲率 方向 更 极端 的 情况 下 ，a 的 值 必须 足够 大 ， 以 抵消 负 特 征 值 。 然 而 ， 如 
果 a 持续 增加 ，Hessian 和 矩阵 会 变 得 由 对 角 抑 阵 acT 主导 ， 通 过 牛顿 法 所 选择 的 方向 
会 收敛 到 普通 梯度 除 以 w。 当 很 强 的 负 曲 率 存 在 时 ，a 可 能 需要 特别 大 ， 以 致 于 牛顿 
法 比 选 择 合 适 学 习 率 的 梯度 下 降 的 步 长 更 小 。 
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算法 8.8 目标 为 J(9) = 击 守 ; La;9),y0) 的 牛顿 法 
Require: 初始 参数 60 
Require: 包含 mm 个 样本 的 训练 集 
while 没有 达到 停止 准则 do 
计算 梯度 : 9 熏 寺 Ve > ;TCF(zG0;0), WO) 
计算 Hessian 珑 阵 : 五 二 二 V3 > ,ZL(CAzD;0), VD) 
计算 Hessian 首 ;五 
计算 更 新 : Ab = - 瑟 109 
应 用 更 新 : 90=0 十 Ab 











end while 
除了 目标 明 数 的 某 些 特征 带 来 的 挑战 , 如 鞍点 , 牛顿 法 用 于 训练 大 型 神经 网 络 还 








受 限 于 其 显著 的 计算 负担 。Hessian 矩阵 中 元 素数 目 是 参数 数量 的 平方 ， 因 此 ， 如 果 
参数 数目 为 上 (甚至 是 在 非常 小 的 神经 网 络 中 友 也 可 能 是 百 万 级 别 )， 牛 顿 法 需要 计 
算 大 xx 和 抑 阵 的 逆 ， 计 算 复 杂 度 为 O( 妇 )。 另 外 ,由 于 参数 将 每 次 更 新 都 会 改变 ， 每 
次 训练 迭代 都 需要 计算 Hessian 矩阵 的 逆 。 其 结果 是 ， 只 有 参数 很 少 的 网 络 才能 在 实 
际 中 用 牛顿 法 训练 。 在 本 节 的 剩余 部 分 ， 我 们 将 讨论 一 些 试图 保持 牛顿 法 优点 ， 同 
时 必 免 计算 障 得 的 替代 算法 。 








8.6.2 ” 共 斩 梯 度 


共 恩 梯度 是 一 种 通过 和 迭代 下 降 的 共 斩 方 向 (conjugate directions ) 以 有 效 避 
免 Hessian 和 矩阵 求 逆 计 算 的 方法 。 这 种 方法 的 灵感 来 自 于 对 最 速 下 降 方法 弱点 的 仔 
细 人 研究 〈 详细 信息 请 查看 第 4.3 节 )， 其 中 线 搜 索 迭 代 地 用 于 与 梯度 相关 的 方向 上 。 
图 8.6 说 明了 该 方法 在 二 次 克 型 目标 中 如 何 表现 的 ， 是 一 个 相当 低 效 的 来 回 往复 ， 句 
齿 形 模式 。 这 是 因为 每 一 个 由 梯度 给 定 的 线 搜索 方向 ， 都 保证 正 交 于 上 一 个 线 搜索 
方向 。 

假设 上 一 个 搜索 方向 是 &_1:。 在 极 小 值 处 ， 线 搜索 终止 ， 方 向 到 -1 处 的 方向 导 
数 为 零 : Ve.J(9) . d_1i = 0。 因 为 该 点 的 梯度 定义 了 当前 的 搜索 方向 ， 到 = Ve.J(O) 
将 不 会 贡献 于 方向 d_1i。 因 此 方向 到 正 交 于 d_i。 最 速 下 降 多 次 欠 代 中 , 方向 w_1 
和 所 之 间 的 关系 如 图 8.6 所 示 。 如 图 展示 的 ， 下 降 正 交 方 向 的 选择 不 会 保持 前 一 搜 
索 方 向 上 的 最 小 值 。 这 产生 了 饮 雌 形 的 过 程 。 在 当前 梯度 方向 下 降 到 极 小 值 ， 我 们 
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图 8.6: 将 最 速 下降 法 应 用 于 二 次 代价 表面 。 在 每 个 步 又， 最 速 下 降 法 沿 着 由 初始 点 处 的 梯度 定义 
的 线 跳 到 最 低 代 价 的 点 。 这 解决 了 图 4.6 中 使 用 固定 学 习 率 所 遇 到 的 一 些 问 题 ， 但 即使 使 用 最 佳 步 
长 ， 算 法 仍然 朝 最 优 方向 曲折 前 进 。 根 据 定 义 , 在 沿 着 给 定 方 向 的 目标 最 小 值 处 ， 最 终点 处 的 梯度 
与 该 方向 正 交 。 
























































必须 重新 最 小 化 之 前 梯度 方向 上 的 目标 。 因 此 ， 通 过 遵循 每 次 线 搜索 结束 时 的 梯度 ， 
我 们 在 某 种 程度 上 撤销 了 在 之 前 线 搜索 的 方向 上 取得 的 进展 。 共 斩 梯 度 试 图 解决 这 
个 问题 。 
在 共 斩 梯 度 法 中 ， 我 们 寻求 一 个 和 先前 线 搜索 方向 共 斩 (conjugate ) 的 搜索 方 
向 ， 即 它 不 会 撤销 该 方向 上 的 进展 。 在 训练 适 代 二 时 ， 下 一 步 的 搜索 方向 必 的 形式 
如 下 : 
太 王 VeJ(O) 十 Bid 1， (8.29) 


其 中 ,系数 5 的 大 小 控制 我 们 应 沿 方向 @& -1 加 回 多 少 到 当前 搜索 方向 上 。 


如 果 中 五 Wi = 0， 其 中 瑟 是 Hessian 矩阵， 则 两 个 方向 到 和 必 _; 被 称 为 共 
斩 的 。 

适应 共 生 的 直接 方法 会 涉及 到 五 特征 向 量 的 计算 以 选择 6,。 这 将 无 法 满足 我 们 
的 开发 目标 : 寻找 在 大 问题 比 牛 顿 法 计算 更 加 可 行 的 方法 。 我 们 能 否 不 进行 这 些 计 
算 而 得 到 共 斩 方 向 ”幸运 的 是 这 个 问题 的 答案 是 肯定 的 。 


两 种 用 于 计算 记 的 流行 方法 是 : 








1. Eletcher-Reeves: 


YeyJ(o)TVeyJ(b 
YoJ(6. TYoJ(6， 





应 (8.30) 
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2. Polak-Ribiere: 
(VeJ(O,) 一 VeJ(6_ 1))TVoeJ(O) 


人 VoJ(6， TYoJ(6 1) 





(8.31) 


对 于 二 次 曲面 而 言 ， 共 斩 方 向 确保 梯度 沿 着 前 一 方向 大 小 不 变 。 因 此 ,我们 在 前 一 
方向 上 仍然 是 极 小 值 。 其 结果 是 ， 在 六 维 参数 空间 中 ， 共 纯 樟 度 只 需要 至 多 8 次 线 
搜索 就 能 达到 极 小 值 。 共 力 梯 度 算 法 如 算法 8.9 所 示 。 


算法 8.9 共 斩 梯 度 方法 
Require: 初始 参数 00 
Require: 包含 mm 个 样本 的 训练 集 
初始 化 po =0 
初始 化 go =0 
初始 化 上 =1 
while 没有 达到 停止 准则 do 
初始 化 梯度 g = 0 
计算 梯度 ; 多 三 0 也 (zi0), WO) 
计算 8. = 普 二 2 re (Polak=Ribiere) 


0 的 二 


( 非 线性 共 斩 梯 度 : 视 情况 可 重 壮 有 为 零 , 例如 上 是 常数 天 的 倍数 时 , 如 天 一 5 

















计算 搜索 方向 : pm: = -和 十 Bopi il 

执行 线 搜索 寻找 : ef = argmine 二 > ZL(Fz;6 十 ep,U90) 

(对 于 真正 二 次 的 代价 函数 ， 存 在 e 的 解析 解 ， 而 无 需 显 式 地 搜索 ) 
应 用 更 新 : pH1=0Tep 

下 








end while 





非 线 性 共 斩 梯度 : 目前， 我们 已 经 讨论 了 用 于 二 次 目标 函数 的 共 斩 梯 度 法 。 当 然 ， 
本 章 我 们 主要 关注 于 探索 训练 神经 网 络 和 其 他 相关 深度 学 习 模 型 的 优化 方法 ， 其 对 
应 的 目标 函 数 比 二 次 函数 复杂 得 多 。 或 许 令 人 惊讶 ， 共 轿 梯 度 法 在 这 种 情况 下 仍然 
是 适用 的 ， 尽 管 需要 作 一 些 修改 。 没 有 目标 是 二 次 的 保证 ， 共 斩 方 向 也 不 再 保证 在 
以 前 方向 上 的 目标 仍 是 极 小 值 。 其 结果 是 ， 非 线性 共 斩 梯度 算法 会 包括 一 些 偶尔 的 

重 设 ， 共 斩 梯 度 法 治 未 修改 的 梯度 重启 线 搜索 。 
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实践 者 报告 在 实践 中 使 用 非 线性 共 力 梯度 算法 训练 神经 网 络 是 合理 的 ， 尽 管 在 
开始 非 线性 共 斩 梯 度 前 使 用 随机 梯度 下 降 迭 代 若 干 步 来 初始 化 效果 更 好 。 另 外 ， 尽 
管 ( 非 线 性 ) 共 斩 梯 度 算 法 传统 上 作为 批 方法 ， 小 批量 版 本 已 经 成 功用 于 训练 神经 
网 络 (Le et al., 2011)。 针 对 神经 网 路 的 共 恩 梯度 应 用 早已 被 提出 ， 例 如 缩放 的 共 力 
梯度 算法 (Moller, 1993)。 








8.6.3 BFGS 


Broyden-Fletcher-Goldfarb-Shanno (BEFGS ) 算法 具有 牛顿 法 的 一 些 优 
点 ， 但 没有 牛顿 法 的 计算 负担 。 在 这 方面 ，BFGS 和 CG 很 像 。 然 而 ，BFGS 使 用 了 
一 个 更 直接 的 方法 近似 牛顿 更 新 。 回 顾 牛 顿 更 新 由 下 式 给 出 











和 =00 一 万 VoJ(6o)， (8.32) 





其 中 ,， 互 是 J 相对 于 6 的 Hessian 和 矩阵 在 0 处 的 估计 。 运 用 牛顿 法 的 主要 计算 难 
点 在 于 计算 Hessian 闭 吾 -。 拟 牛顿 法 所 采用 的 方法 (BFGS 是 其 中 最 突出 的 ) 是 使 
用 和 矩阵 AM 近似 关 ， 迭 代 地 低 秩 更 新 精度 以 更 好 地 近似 五 -。 

BFGS 近 似 的 说 明和 推导 出 现在 很 多 关于 优化 的 教科 书 中 ， 包 括 Luenberger 
(1984)。 

当 Hessian 道 近似 AM 更 新 时 ， 下 降 方向 mm 为 py = Jig。 该 方向 上 的 线 搜索 
用 于 决定 该 方向 上 的 步 长 ee。 参数 的 最 后 更 新 为 : 














OH1 一 O， 十 er Di， (8.33) 








和 共 斩 梯 度 法 相似 ，BEFGS 算 法 和 欠 代 一 系列 线 搜索 ， 其 方向 含 二 阶 信息 。 然 而 
和 共 斩 梯 度 不 同 的 是 ， 该 方法 的 成 功 并 不 严重 依赖 于 线 搜索 寻找 该 方向 上 和 真正 极 
小 值 很 近 的 一 点 。 因 此 ， 相 比 于 共 斩 梯 度 ，BFGS 的 优点 是 其 花费 较 少 的 时 间 改 进 每 
个 线 搜索 。 在 另 一 方面 ，BFGS 算法 必须 存储 Hessian 逆 窍 阵 M， 需 要 O(n2) 的 在 
储 空间 ， 使 BFGS 不 适用 于 大 多 数 具 有 百 万 级 参数 的 现代 深度 学 习 模 型 。 





存储 受 限 的 BFGS (或 L-BFGS ) 通过 避免 存储 完整 的 Hessian 闭 近似 AM， 
BFGS 算法 的 存储 代价 可 以 显著 降低 。L-BFGS 算 法 使 用 和 BEFGS 算法 相同 的 方法 计 
算 M 的 近似 ， 但 起 始 假设 是 M4-D 是 单位 矩阵 ， 而 不 是 一 步 一 步 都 要 存储 近似 。 
如 果 使 用 精确 的 线 搜索 ，L-BFGS 定义 的 方向 会 是 相互 共 斩 的 。 然 而 ,不 同 于 共 斩 梯 
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度 法 ， 即 使 只 是 近似 线 搜索 的 极 小 值 ， 该 过 程 的 效果 仍然 不 错 。 这 里 描述 的 无 存储 
的 L-BFGS 方法 可 以 拓展 为 包含 Hessian 矩阵 更 多 的 信息 ， 每 步 存储 一 些 用 于 更 新 
AM 的 向 量 ， 且 每 步 的 存储 代价 是 O(m)。 





8.7 ”优化 策略 和 元 算法 


许多 优化 技术 并 非 真 正 的 算法 ， 而 是 一 般 化 的 模板 ， 可 以 特定 地 产生 算法 ， 或 
是 并 和 人 到 很 多 不 同 的 算法 中 。 


8.7.1 批 标准 化 


批 标准 化 (Ioffe and S$zegedqy, 2015) 是 优化 深度 神经 网 络 中 最 激 劲 人 心 的 最 新 创 
新 之 一 。 实 际 上 它 并 不 是 一 个 优化 算法 ， 而 是 一 个 自 适应 的 重 参数 化 的 方法 ， 试 图 
解决 训练 非常 次 的 模型 的 困难 。 

非常 深 的 模型 会 涉及 多 个 函数 或 层 组 合 。 在 其 他 层 不 改变 的 假设 下 ， 梯 度 用 于 
如 何 更 新 每 一 个 参数 。 在 实践 中 , 我 们 同时 更 新 所 有 层 。 当 我 们 进行 更 新 时 ， 可 能 会 
发 生 一 些 意 想不到 的 结果 ， 这 是 因为 许多 组 合 在 一 起 的 函数 同时 改变 时 ， 计 算 更 新 
的 假设 是 其 他 函数 保持 不 变 。 举 一 个 简单 的 例子 ,假设 我 们 有 一 个 深度 神经 网 络 ， 
一 层 只 有 一 个 单元 ， 并 且 在 每 个 隐藏 层 不 使 用 激活 函数 : 少 = zltau3a .. .Wi。 此 处 ， 
wwi 表示 用 于 层 ;的 权重 。 层 ; 的 输出 是 访 = 慷 -i0s。 输出 少 是 输入 z 的 线性 函数 ， 
但 是 权重 ww; 的 非 线性 函数 。 假 设 我 们 的 代价 函数 少 上 的 梯度 为 1， 所 以 我 们 希望 稍 
稍 降 低 放 。 然后 反 向 传播 算法 可 以 计算 梯度 g = Vw1。 想 想 我 们 在 更 新 由 二 也 一 69 
时 会 发 生 什 么 。 近 似 乡 的 一 阶 泰 勒 级 数 会 预测 少 的 值 下 降 eg g。 如 果 我 们 希望 六 下 
降 0.1， 那 么 梯度 中 的 一 阶 信息 表明 我 们 应 设置 学 习 率 e 为 站。 然而 ， 实 际 的 更 新 
将 包括 二 阶 ,三 阶 ， 直 到 阶 的 影响 。 少 的 更 新 值 为 





















































Z(UW1 一 cgij(a 一 cg).(Uwl 一 上 cg1)， (8.34) 


这 个 更 新 中 所 产生 的 一 个 二 阶 项 示例 是 egigz IT _。w; 。 如 果 IT'_。ws 很 小 , 那么 该 
项 可 以 忽略 不 计 。 而 如 果 层 3 到 层 ! 的 权重 都 比 1 大 时 ， 该 项 可 能 会 指数 级 大 。 这 
使 得 我 们 很 难 选择 一 个 合适 的 学 习 率 ， 因 为 某 一 层 中 参数 更 新 的 效果 很 大 程度 上 取 
决 于 其 他 所 有 层 。 二 阶 优化 算法 通过 考虑 二 阶 相互 影响 来 解决 这 个 问题 ， 但 我 们 可 
以 看 到 , 在 非常 深 的 网 络 中 , 更 高 阶 的 相互 影响 会 很 显著 。 即 使 是 二 阶 优化 算法 ， 计 
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算 代 价 也 很 高 , 并 且 通 常 需要 大 量 近似 ,以 免 真 正 计算 所 有 的 重要 二 阶 相互 作用 。 因 
此 对 于 m > 2 的 情况 ,建立 ” 阶 优化 算法 似乎 是 无 望 的 。 那 么 我 们 可 以 做 些 什么 呢 ? 

批 标准 化 提出 了 一 种 几乎 可 以 重 参数 化 所 有 深度 网 络 的 优雅 方法 。 重 参数 化 显 
著 减 少 了 多 层 之 间 协 调 更 新 的 问题 。 批 标准 化 可 应 用 于 网 络 的 任何 输入 层 或 隐藏 层 。 
设 瑟 是 需要 标准 化 的 某 层 的 小 批量 激活 函数 ， 排 布 为 设计 珑 阵 ， 每 个 样本 的 激活 出 
现在 矩阵 的 每 一 行 中 。 为 了 标准 化 五 ， 我 们 将 其 替换 为 
互 一 人 

CT 总 
其 中 风 是 包含 每 个 单元 均值 的 向量 ，c 是 包含 每 个 单元 标准 差 的 向 量 。 此 处 的 算术 
是 基于 广播 向 量 / 和 向 量 ce 应 用 于 矩阵 玖 的 每 一 行 。 在 每 一 行内 ， 运 算是 逐 元 素 
的 ， 因 此 瓦 ,， 标准 化 为 减 去 /5 再 除 以 cj。 网 络 的 其 余部 分 操作 鼠 的 方式 和 原 网 
络 操作 互 的 方式 一 样 。 

在 训练 阶段 ， 
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其 中 5 是 个 很 小 的 正 值 ， 比 如 10， 以 强制 避免 遇 到 Vz 的 梯度 在 z = 0 处 未 定义 
的 问题 。 至 关 重 要 的 是 ， 我 们 反 向 传播 这 些 操作 , 来 计算 均值 和 标准 差 ， 并 应 用 它们 
于 标准 化 互 。 这 意味 着 ， 梯 度 不 会 再 简单 地 增加 疡 的 标准 差 或 均值 ;标准 化 操作 会 
除 掉 这 一 操作 的 影响 ， 归 零 其 在 梯度 中 的 元 素 。 这 是 批 标 准 化 方法 的 一 个 重大 创新 。 
以 前 的 方法 添加 代价 机 数 的 每 罚 ， 以 层 励 单元 标准 化 激活 统计 量 ， 或 是 在 每 个 梯度 
下 降 步骤 之 后 重新 标准 化 单元 统计 量 。 前 者 通常 会 导致 不 完全 的 标准 化 ， 而 后 者 通 
常会 显著 地 消耗 时 间 ， 因 为 学 习 算法 会 反复 改变 均值 和 方差 而 标准 化 步 又 会 反复 抵 
消 这 种 变化 。 批 标准 化 重 参数 化 模型 ， 以 使 一 些 单元 总 是 被 定义 标准 化 ， 巧 妙 地 回 
避 了 这 两 个 问题 。 

在 测试 阶段 ，& 和 c 可 以 被 蔡 换 为 训练 阶段 收集 的 运行 均值 。 这 使 得 模型 可 以 
对 单一 样本 评估 ， 而 无 需 使 用 定义 于 整个 小 批量 的 六 和 cr。 

回顾 例子 少 = zuwawaz .…w， 我 们 看 到 ， 我 们 可 以 通过 标准 化 娘 -:1 很 大 程度 地 
解决 了 学 习 这 个 模型 的 问题 。 假 设 z 采样 自 一 个 单位 高 斯 。 那 么 ji 也 是 来 自 高 
斯 ， 因 为 从 z 到 疡 的 变换 是 线性 的 。 然 而 ，j-i 不 再 有 零 均 值 和 单位 方差 。 使 用 批 
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标准 化 后 ， 我 们 得 到 的 归 一 化 六 -+ 恢复 了 零 均 值 和 单位 方差 的 特性 。 对 于 底层 的 几 
乎 任意 更 新 而 言 ， 刀 _; 仍然 保持 着 单位 高 斯 。 然 后 输出 少 可 以 学 习 为 一 个 简单 的 线 
性 函数 活 = u 记 1。 现在 学 习 这 个 模型 非常 简单 ， 因 为 低层 的 参数 在 大 多 数 情况 下 
没有 什么 影响 ; 它们 的 输出 总 是 重新 标准 化 为 单位 高 斯 。 只 在 少数 个 例 中 ， 低 层 会 
影响 。 改 变 某 个 低层 权重 为 0， 可 能 使 输出 退化 ; 改变 低层 权重 的 符号 可 能 反 转 
-1 和 y 之 间 的 关系 。 这 些 情 况 都 是 非常 罕见 的 。 没 有 标准 化 ， 几 乎 每 一 个 更 新 都 
会 对 /ii 的 统计 量 有 着 极端 的 影响 。 因 此 ， 批 标准 化 显著 地 使 得 模型 更 易学 习 。 在 
这 个 示例 中 ， 容 易学 习 的 代价 是 使 得 底层 网 络 没有 用 。 在 我 们 的 线性 示例 中 ， 较 低 
层 不 再 有 任何 有 害 的 影响 ， 但 它们 也 不 再 有 任何 有 益 的 影响 。 这 是 因为 我 们 已 经 标 
准 化 了 一 阶 和 二 阶 统计 量 ， 这 是 线性 网 络 可 以 影响 的 所 有 因素 。 在 具有 非 线 性 激活 
函数 的 深度 神经 网 络 中 ， 较 低层 可 以 进行 数据 的 非 线性 变换 ， 所 以 它们 仍然 是 有 用 
的 。 批 标准 化 仅 标准 化 每 个 单元 的 均值 和 方差 ， 以 稳定 化 学 习 ， 但 允许 单元 和 单个 
单元 的 非 线性 统计 量 之 间 的 关系 发 生变 化 。 

由 于 网 络 的 最 后 一 层 能 够 学 习 线 性 变换 ， 实 际 上 我 们 可 能 希望 移 除 一 层 内 单元 
之 间 的 所 有 线性 关系 。 事 实 上 ， 这 是 Guillaume Desjardqins (2015) 中 采用 的 方法 ， 
为 批 标准 化 提供 了 灵感 。 令 人 遗憾 的 是 ， 消 除 所 有 的 线性 关联 比 标准 化 各 个 独立 单 
元 的 均值 和 标准 差 代价 更 高 ， 因 此 批 标准 化 仍 是 迄今 最 实用 的 方法 。 

标准 化 一 个 单元 的 均值 和 标准 差 会 降低 包含 该 单元 的 神经 网 络 的 表达 能 力 。 为 
了 保持 网 络 的 表现 力 ， 通 常会 将 批量 隐藏 单元 激活 五 砍 换 为 7 如 + B， 而 不 是 简单 
地 使 用 标准 化 的 鼠 。 变 量 7 和 B 是 允许 新 变量 有 任意 均值 和 标准 差 的 学 习 参 数 。 
乍 一 看 ,这 似乎 是 无 用 的 一 一 为 什么 我 们 将 均值 设 为 0， 然后 又 引入 参数 允许 它 被 重 
设 为 任意 值 6? 答案 是 新 的 参数 可 以 表示 旧 参 数 作 为 输入 的 同一 族 函 数 ， 但 是 新 人 参 
数 有 不 同 的 学 习 动 态 。 在 旧 参 数 中 ,， 互 的 均值 取决 于 五 下 层 中 参数 的 复杂 关联 。 在 
新 参数 中 ，7 刀 + G 的 均值 仅 由 B 确定 。 新 参数 很 容易 通过 梯度 下 降 来 学 习 。 

大 多 数 神经 网 络 层 会 采取 4( 怀 全 十 刀 的 形式 ， 其 中 是 某 个 固定 的 非 线性 激 
活 函 数 ， 如 整流 线性 变换 。 自 然 想 到 我 们 应 该 将 批 标准 化 应 用 于 输入 下 还 是 变换 后 
的 值 瑟 全 十 b。Ioffe and Szegedy (2015) 推荐 后 者 。 更 具体 地 ， 瑟 人 三 二 应 替换 为 
驴 例 的 标准 化 形式 。 偏 置 项 应 被 忽略 ， 因 为 参数 B 会 加 入 批 标准 化 重 参数 化 ， 它 是 
宛 余 的 。 一 层 的 输入 通常 是 前 一 层 的 非 线性 激活 函数 ( 如 整流 线性 函数 ) 的 输出 。 因 
此 ， 输 入 的 统计 量 更 符合 非 高 斯 ， 而 更 不 服从 线性 操作 的 标准 化 。 

第 九 章 所 述 的 卷 积 网 络 ， 在 特征 映射 中 每 个 空间 位 置 同样 地 标准 化 六 和 c 是 很 
重要 的 ， 能 使 特征 映射 的 统计 量 在 不 同 的 空间 位 置 ， 仍 然 保 持 相 同 。 
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8.7.2 ”坐标 下 降 


在 某 些 情况 下 ， 将 一 个 优化 问题 分 解 成 几 个 部 分 ， 可 以 更 快 地 解决 原 问 题 。 如 
果 我 们 相对 于 某 个 单一 变量 zx; 最 小 化 /(m， 然 后 相对 于 另 一 个 变量 zj 等 等 ， 反 
复 循 环 所 有 的 变量 ， 我 们 会 保证 到 达 (局 部 ) 极 小 值 。 这 种 做 法 被 称 为 坐标 下 降 
(coordinate descent )， 因 为 我 们 一 次 优化 一 个 坐标 。 更 一 般 地 ， 块 坐标 下 降 (block 
coordinate descent ) 是 指 对 于 某 个 子 集 的 变量 同时 最 小 化 。 术 语 “ 坐 标 下 降 ” 通 既 
指 块 坐 标 下 降 ， 也 指 严格 的 单个 坐标 下 降 。 

当 优 化 问题 中 的 不 同 变量 能 够 清楚 地 分 成 相对 独立 的 组 ， 或 是 当 优 化 一 组 变量 
明显 比 优化 所 有 变量 效率 更 高 时 ， 坐 标 下 降 最 有 意义 。 例 如 ， 考 虑 代价 函数 


J( 瓦 现 =》 | 万 i++》 (天 有 (8.38) 























该 函数 撒 述 了 一 种 被 称 为 稀 玻 编码 的 学 习 问 题 ， 其 目标 是 寻求 一 个 权重 矩阵 人 太 ， 可 
以 线性 解码 激活 值 矩 阵 互 以 重 构 训 练 集 和 。 稀 玻 编 码 的 大 多 数 应 用 还 涉及 到 权重 衰 
减 或 娘 列 范 数 的 约束 ， 以 避免 极 小 鼠 和 极 大 伍 的 病态 解 。 

函数 7 不 是 凸 的 。 然 而 ， 我 们 可 以 将 训练 算法 的 输入 分 成 两 个 集合 : 字典 参数 
倪 和 编码 表示 五 。 最 小 化 关于 这 两 者 之 一 的 任意 一 组 变量 的 目标 函数 都 是 凸 问题 。 
因此 ， 块 坐标 下 降 允 许 我 们 使 用 高 效 的 凸 优化 算法 ,交替 固 定 优 化 环 和 固定 例 
优化 互 。 

当 一 个 变量 的 值 很 大 程度 地 影响 另 一 个 变量 的 最 优 值 时 ， 坐 标 下 降 不 是 一 个 很 
好 的 方法 ， 如 函数 (zj) = (zi 一 za)2 +a( 2 二 z2)， 其 中 a 是 正 值 常数 。 第 一 项 鼓 
励 两 个 变量 具有 相似 的 值 ， 而 第 二 项 鼓励 它们 接近 零 。 解 是 两 者 都 为 零 。 牛 顿 法 可 
以 一 步 解决 这 个 问题 ， 因 为 它 是 一 个 正定 二 次 问题 。 但 是 ， 对 于 小 值 a 而 言 ， 坐 标 
下 降 会 使 进展 非常 缓慢 ， 因 为 第 一 项 不 允许 单个 变量 变 为 和 其 他 变量 当前 值 显 著 不 
同 的 值 。 

















8.7.3 ”Polyak 平均 


Polyak 平均 (Polyak and Juditsky, 1992) 会 平均 优化 算法 在 参数 空间 访问 轨迹 
中 的 几 个 点 。 如 果 蕊 次 欠 代 梯度 下 降 访问 了 点 60 ,9 ， 那 么 Polyak 平均 算法 
的 输出 是 69 = 上 奔 交 , 60 。 在 某 些 问题 中 ,如 梯度 下 降 应 用 于 凸 问题 时 ， 这 种 方法 具 
有 和 较 强 的 收敛 保证 。 当 应 用 于 神经 网 络 时 ， 其 验证 更 多 是 启发 式 的 ， 但 在 实践 中 表 
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现 良 好 。 基 本 想法 是 ， 优 化 算法 可 能 会 来 回 穿 过 山谷 好 几 次 而 没 经 过 山谷 底部 附近 
的 点 。 尽 管 两 边 所 有 位 置 的 均值 应 比较 接近 谷底 。 

在 非 凸 问题 中 , 优化 轨迹 的 路 径 可 以 非常 复杂 , 并 且 经 过 了 许多 不 同 的 区 域 。 包 
括 参 数 空间 中 遥远 过 去 的 点 ， 可 能 与 当前 点 在 代价 函数 上 相隔 很 大 的 障碍 ， 看 上 去 
不 像 一 个 有 用 的 行为 。 其 结果 是 ， 当 应 用 Polyak 平均 于 非 凸 问题 时 ， 通 常会 使 用 指 
数 衰 减 计算 平均 值 : 








60 -= ab 二 -ab0. (8.39) 








这 个 计算 平均 值 的 方法 被 用 于 大 量 数值 应 用 中 。 最 近 的 例子 请 查看 Szegedy et ol 
(2015)。 


8.7.4 监督 预 训 练 


有 时 ， 如 果 模 型 太 复杂 难以 优化 ， 或 是 如 果 任 务 非常 困难 ， 直 接 训练 模型 来 解 
决 特定 任务 的 挑战 可 能 太 大 。 有 时 训练 一 个 较 简单 的 模型 来 求解 问题 ， 然 后 使 模型 
更 复杂 会 更 有 效 。 训 练 模型 来 求解 一 个 简化 的 问题 ， 然 后 转移 到 最 后 的 问题 ， 有 时 
也 会 更 有 效 些 。 这 些 在 直接 训练 目标 模型 求解 目标 问题 之 前 ， 训 练 简单 模型 求解 简 
化 问题 的 方法 统称 为 预 训练 (pretraining )。 

贪心 算法 〈greedy algorithm ) 将 问题 分 解 成 许多 部 分 ， 然 后 独立 地 在 每 个 部 分 
求解 最 优 值 。 令 人 遗憾 的 是 ， 结 合 各 个 最 佳 的 部 分 不 能 保证 得 到 一 个 最 佳 的 完整 解 。 
然而 , 贪心 算法 计算 上 比 求解 最 优 联合 解 的 算法 高 效 得 多 , 并 且 贪 心算 法 的 解 在 不 是 
最 优 的 情况 下 ， 往 往 也 是 可 以 接受 的 。 贪 心算 法 也 可 以 紧 接 一 个 精 调 ( fne-tuning ) 
阶段 ， 联 合 优化 算法 搜索 全 问题 的 最 优 解 。 使 用 贪心 解 初 始 化 联合 优化 算法 ， 可 以 
极 大 地 加 速算 法 ， 并 提高 寻找 到 的 解 的 质量 。 

预 训练 算法 ， 特 别 是 贪心 预 训练 , 在 次 度 学 习 中 是 善 过 存在 的 。 在 本 节 中 , 我 们 
会 具体 描述 这 些 将 监督 学 习 问 题 分 解 成 其 他 简化 的 监督 学 习 问 题 的 预 训练 算法 。 这 
种 方法 被 称 为 贪心 监督 预 训练 〈 greedy supervised pretraining )。 

在 贪心 监督 预 训练 的 原始 版 本 (Bengio et oj., 2007c) 中 ， 每 个 阶段 包括 一 个 仅 
涉及 最 终 神 经 网 络 的 子 集 层 的 监督 学 习 训 练 任 务 。 贪 心 监督 预 训 练 的 一 个 例子 如 
图 8.7 所 示 ， 其 中 每 个 附加 的 隐藏 层 作为 浅 层 监督 多 层 感 知 机 的 一 部 分 预 训 练 ， 以 先 
前 训练 的 隐藏 层 输出 作为 输入 。Simonyan and Zisserman (2015) 预 训练 深度 卷 积 网 
络 (11 层 权 重 )， 然 后 使 用 该 网 络 前 四 层 和 最 后 三 层 初始 化 更 深 的 网 络 (多 达 19 层 

















276 第 八 章 深度 模型 中 的 优化 
权重 )， 并 非 一 次 预 训练 一 层 。 非 常 深 的 新 网 络 的 中 间 层 是 随机 初始 化 的 。 然 后 联合 


训练 新 网 络 。 还 有 一 种 选择 ， 由 Yu et ol (2010) 提出 ， 将 先前 训练 多 层 感知 机 的 输 
出 ， 以 及 原始 输入 ， 作 为 每 个 附加 阶段 的 输入 。 


TD 
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图 8.7: 一 种 形式 的 贪心 监督 预 训练 的 示意 图 (Bengio et o/., 2007a)。(a) 我 们 从 训练 一 个 足够 浅 
的 架构 开始 。(b) 同一 个 架构 的 另 一 描绘 。(c) 我 们 只 保留 原始 网 络 的 输入 到 隐藏 层 ， 并 丢弃 隐藏 
到 输出 层 。 我 们 将 第 一 层 隐 藏 层 的 输出 作为 输入 发 送 到 另 一 监督 单 隐 层 MLP (使 用 与 第 一 个 网 络 
相同 的 目标 训练 )， 从 而 可 以 添加 第 二 层 隐藏 层 。 这 可 以 根据 需要 重复 多 层 。(d) 所 得 架构 的 另 一 
种 描绘 ， 可 视 为 前 馈 网 络 。 为 了 进一步 改进 优化 ,我 们 可 以 联合 地 精 调 所 有 层 〈 仅 在 该 过 程 的 结束 
或 者 该 过 程 的 每 个 阶段 )。 
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为 什么 贪心 监督 预 训练 会 有 帮助 呢 ? 最 初 由 Bengio et o (2007d) 提出 的 假说 
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是 ， 其 有 助 于 更 好 地 指导 次 层 结构 的 中 间 层 的 学 习 。 一 般 情 况 下 ， 预 训练 对 于 优化 
和 泛 化 都 是 有 帮助 的 。 

另 一 个 与 监督 预 训练 有 关 的 方法 扩展 了 迁移 学 习 的 想法 : Yosinski et o/. (2014) 
在 一 组 任务 上 预 训练 了 8 层 权 重 的 次 度 卷 积 网 络 (1000 个 ImageNet 对 象 类 的 子 
集 )， 然 而 用 该 网 络 的 前 太 层 初始 化 同样 规模 的 网 络 。 然 后 第 二 个 网 络 的 所 有 展 (上 
层 随机 初始 化 ) 联合 训练 以 执行 不 同 的 任务 (1000 个 InageNet 对 象 类 的 另 一 个 子 
集 )， 但 训练 样本 少 于 第 一 个 任务 。 神 经 网 络 中 另 一 个 和 迁移 学 习 相 关 的 方法 将 在 
第 15.2 节 讨论 。 

另 一 条 相关 的 工作 线 是 FitNets (Romero et al., 2015) 方法 。 这 种 方法 始 于 训 
练 深度 足够 低 和 宽度 足够 大 《〈 每 层 单元 数 )， 容 易 训 练 的 网 络 。 然 后 ， 这 个 网 络 成 为 
第 二 个 网 络 (被 指定 为 学 生 ) 的 老师 。 学 生 网 络 更 深 更 窗 (11 至 19 层 )， 且 在 正 
篆 情 况 下 很 难 用 SGD 训练 。 训 练 学 生 网 络 不 仅 需要 预测 原 任 务 的 输出 ， 还 需要 预 
测 教师 网 络 中 间 层 的 值 ， 这 样 使 得 训练 学 生 网 络 变 得 更 容易 。 这 个 额外 的 任务 说 明 
了 隐藏 层 应 如 何 使 用 ， 并 且 能 够 简化 优化 问题 。 附 加 参数 被 引入 来 从 更 深 的 学 生 网 
络 中 间 层 去 回归 5 层 教师 网 络 的 中 间 层 。 然 而 ， 该 目标 是 预测 教师 网 络 的 中 间 隐 藏 
层 ， 并 非 预 测 最 终 分 类 目标 。 学 生 网 络 的 低层 因而 具有 两 个 目标 : 帮助 学 生 网 络 的 
输出 完成 其 目标 和 预测 教师 网 络 的 中 间 层 。 尽 管 一 个 窦 而 深 的 网 络 似乎 比 宽 而 浅 的 
网 络 更 难 训练 ， 但 罕 而 深 网 络 的 泛 化 能 力 可 能 更 好 ， 并 且 如 果 其 足够 窗 ， 参 数 足 够 
少 ， 那 么 其 计算 代价 更 小 。 没 有 隐藏 层 的 提示 ， 学 生 网 络 在 训练 集 和 测试 集 上 的 实 
验 表现 都 很 差 。 因 而 中 间 层 的 提示 是 有 助 于 训练 很 难 训练 的 网 络 的 方法 之 一 ， 但 是 
其 他 优化 技术 或 是 架构 上 的 变化 也 可 能 解决 这 个 问题 。 









































8.7.5 “设计 有 助 于 优化 的 模型 


改进 优化 的 最 好 方法 并 不 总 是 改进 优化 算法 。 相 反 ， 深 度 模型 中 优化 的 许多 改 
进来 自 于 设计 易于 优化 的 模型 。 

原则 上 ， 我 们 可 以 使 用 呈 饥 齿 非 单调 模式 上 上 下 下 的 激活 函数 ,但 是 ， 这 将 使 
优化 极为 困难 。 在 实践 中 ， 选 择 一 族 容 允 优化 的 模型 比 使 用 一 个 强大 的 优化 算法 更 
重要 。 神 经 网 络 学 习 在 过 去 30 年 的 大 多 数 进 步 主要 来 自 于 改变 模型 族 ， 而 非 改变 优 
化 过 程 。1980 年 代用 于 训练 神经 网 络 的 带动 量 的 随机 梯度 下 降 ， 仍 然 是 现代 神经 网 
络 应 用 中 的 前 沿 算法 。 

具体 来 说 ， 现 代 神 经 网 络 的 设计 选择 体现 在 层 之 间 的 线性 变换 ， 几 乎 处 处 可 导 
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的 激活 函数 ， 和 大 部 分 定义 域 都 有 明显 的 梯度 。 特 别 地 ， 创 新 的 模型 ， 如 LSTM， 整 
流 线 性 单元 和 maxout 单元 都 比 先 前 的 模型 (如 基于 sigmoid 单元 的 深度 网 络 ) 使 用 
更 多 的 线性 函数 。 这 些 模型 都 具有 简化 优化 的 性 质 。 如 果 线 性 变换 的 Jacobian 具有 
相对 合理 的 奇异 值 ， 那 么 梯度 能 够 流 经 很 多 层 。 此 外 ， 线 性 函数 在 一 个 方向 上 一 致 
增加 ， 所 以 即使 模型 的 输出 远离 正确 值 ， 也 可 以 简单 清晰 地 计算 梯度 ， 使 其 输出 方 
向 朝 降 低 损失 天 数 的 方向 移动 。 换 言 之 ， 现 代 神 经 网 络 的 设计 方案 旨 在 使 其 局 部 梯 
度 信息 合理 地 对 应 着 移 向 一 个 遥远 的 解 。 

其 他 的 模型 设计 策略 有 助 于 使 优化 更 简单 。 例 如 ， 层 之 间 的 线性 路 径 或 是 跳 
牙 连 接 减 少 了 从 较 低 层 参 数 到 输出 最 短路 径 的 长 度 ， 因 而 缓解 了 梯度 消失 的 问题 
(Srivastava et al.， 2015)。 一 个 和 跳跃 连接 相关 的 想法 是 添加 和 网 络 中 间 隐 藏 层 相 
连 的 输出 的 额外 副本 ， 如 GoogLeNet (Szegedy et ol.,，2014a) 和 次 度 监 督 网 络 (Lee 
ef al., 2014)。 这 些 “ 辅 助 头 ”被 训练 来 执行 和 网 络 顶 层 主 要 输出 相同 的 任务 ， 以 确 
保底 层 网 络 能 够 接受 较 大 的 梯度 。 当 训练 完成 时 ， 辅 助 头 可 能 被 丢弃 。 这 是 之 前 小 
节 介 绍 到 的 预 训练 策略 的 蔡 代 方 法 。 以 这 种 方式 ， 我 们 可 以 在 一 个 阶段 联合 训练 所 
有 层 ， 而 不 改变 架构 ， 使 得 中 间 层 (特别 是 低层 ) 能 够 通过 更 短 的 路 径 得 到 一 些 如 
何 更 新 的 有 用 信息 。 这 些 信 息 为 底层 提供 了 误差 信号 。 
























































8.7.6” 延 拓 法 和 课程 学 习 


正如 第 8.2.7 节 探讨 的 ， 许 多 优化 挑战 都 来 自 于 代价 函数 的 全 局 结构 ， 不 能 仅 通 
过 局 部 更 新 方向 上 更 好 的 估计 来 解决 。 解 决 这 个 问题 的 主要 方法 是 尝试 初始 化 参数 
到 某 种 区 域内 ， 该 区 域 可 以 通过 局 部 下 降 很 快 连接 到 参数 空间 中 的 解 。 

延 拓 法 (continuation method ) 是 一 族 通过 挑选 初始 点 使 优化 更 容易 的 方法 ， 
以 确保 局 部 优化 花费 大 部 分 时 间 在 表现 良好 的 空间 。 延 拓 法 的 背后 想法 是 构造 一 系 
列 具 有 相同 参数 的 目标 函数 。 为 了 最 小 化 代价 函数 .J(6)， 我 们 构建 新 的 代价 函数 
{740 .7009}。 这 些 代 价 函 数 的 难度 逐步 提高 ， 其 中 .7(0) 是 最 容易 最 小 化 的 ，.J4) 
是 最 难 的 ， 真 正 的 代价 函数 驱动 整个 过 程 。 当 我 们 说 .749 比 .74+50 更 容易 时 ， 是 指 
其 在 更 多 的 9 空间 上 表现 良好 。 随 机 初始 化 更 有 可 能 落 人 局 部 下 降 可 以 成 功 最 小 
化 代价 函数 的 区 域 ， 因 为 其 良好 区 域 更 大 。 这 系列 代价 函数 设计 为 前 一 个 解 是 下 一 
个 的 良好 初始 点 。 因 此 ， 我 们 首先 解决 一 个 简单 的 问题 ， 然 后 改进 解 以 解决 逐步 变 
难 的 问题 ， 直 到 我 们 求解 真正 问题 的 解 。 

传统 的 延 拓 法 〈 用 于 神经 网 络 训练 之 前 的 延 拓 法 ) 通常 基于 平滑 目标 函数 。 读 
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者 可 以 查看 Wu (1997) 了 解 这 类 方法 的 示例 ， 以 及 一 些 相关 方法 的 综述 。 延 拓 法 也 
和 参数 中 加 入 噪声 的 模拟 退火 紧密 相关 (Kirkpatrick et o, 1983)。 延 拓 法 在 最 近 几 
年 非常 成 功 。 参 考 Mobahi and Fisher (2015) 了 解 近 期 文献 的 概述 ， 特 别 是 在 AI 方 
面 的 应 用 。 

传统 上 ， 延 拓 法 主要 用 来 克服 局 部 极 小 值 的 问题 。 具 体 地 ， 它 被 设计 来 在 有 很 
多 局 部 极 小 值 的 情况 下 ， 求 解 一 个 全 局 最 小 点 。 这 些 连 续 方法 会 通过 “模糊 ”原来 
的 代价 函数 来 构建 更 容易 的 代价 函数 。 这 些 模糊 操作 可 以 是 用 采样 来 近似 





J0(9) = 了 pwwdesenoa7(90) (8.40) 











这 个 方法 的 直觉 是 有 些 非 凸 函数 在 模糊 后 会 近似 凸 的 。 在 许多 情况 下 ， 这 种 模糊 保 
留 了 关于 全 局 极 小 值 的 足够 信息 ， 我 们 可 以 通过 逐步 求解 模糊 更 少 的 问题 来 求解 全 
局 极 小 值 。 这 种 方法 有 三 种 可 能 失败 的 方式 。 首 先 ， 它 可 能 成 功 地 定义 了 一 连 串 代 
价 函 数 ， 并 从 开始 的 一 个 凸 函 数 起 (逐一 地 ) 沿 着 数 链 最 佳 轨迹 逼近 全 局 最 小 值 ， 
但 可 能 需要 非常 多 的 逐步 代价 函数 ,整个 过 程 的 成 本 仍然 很 高 。 另 外 ,即使 延 拓 法 可 
以 适用 ，NP-hard 的 优化 问题 仍然 是 NP-hard。 其 他 两 种 延 拓 法 失败 的 原因 是 不 实 
用 。 其 一 , 不 管 如 何 模糊 ， 函 数 都 没 法 变 成 凸 的 ， 比 如 函数 J(8) = -9 0。 其 二 ， 末 
数 可 能 在 模糊 后 是 凸 的 ， 但 模糊 函数 的 最 小 值 可 能 会 追踪 到 一 个 局 部 最 小 值 ， 而 非 
原始 代价 函数 的 全 局 最 小 值 。 

尽管 延 拓 法 最 初 用 来 解决 局 部 最 小 值 的 问题 ， 而 局 部 最 小 值 已 不 再 认为 是 神经 
网 络 优化 中 的 主要 问题 了 。 竺 运 的 是 ， 延 拓 法 仍然 有 所 帮助 。 延 拓 法 引入 的 简化 目 
标 函 数 能 够 消除 平坦 区 域 ， 减 少 梯度 估计 的 方差 ， 提 高 Hessian 矩阵 的 条 件数 ， 使 局 
部 更 新 更 容易 计算 ， 或 是 改进 局 部 更 新 方向 与 朝向 全 局 解 方向 之 间 的 对 应 关系 。 

Bengio et al. (2009) 指出 被 称 为 课程 学 习 (curriculum learning ) 或 者 塑造 
(shaping ) 的 方法 可 以 被 解释 为 延 拓 法 。 课 程 学 习 基 于 规划 学 习 过 程 的 想法 ， 首 先 
学 习 简 单 的 概念 ， 然 后 逐步 学 习 依 赖 于 这 些 简化 概念 的 复杂 概念 。 之 前 这 一 基本 
策略 被 用 来 加 速 动物 训练 过 程 (Skinner,，1958; Peterson,， 2004; Krueger and Dayam， 
2009) 和 机 器 学 习 过 程 (Solomono 允 1989; Elman, 1993; Sanger, 1994)。Bengio et a/. 
(2009) 验证 这 一 策略 为 延 折 法 ， 通 过 增加 简单 样本 的 影响 〈 通 过 分 配 它们 较 大 的 系 
数 到 代价 函数 ， 或 者 更 频繁 地 采样 )， 先 前 的 .7 会 变 得 更 容易 。 实 验证 明 ， 在 大 
规模 的 神经 语言 模型 任务 上 使 用 课程 学 习 ， 可 以 获得 更 好 的 结果 。 课 程 学 习 已 经 成 
功 应 用 于 大 量 的 自然 语言 (Spitkovsky et al.，2010; Collobert et al.，2011a; Mikolov 
et ul.， 2011b; Tu and Honavar,， 2011) 和 计算 机 视觉 (Kumar et al.，2010; Lee and 
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Grauman, 2011; Supancic and Ramanan, 2013) 任务 上 。 课 程 学 习 被 证 实 为 与 人 类 
教学 方式 一 致 (Khan et ww, 2011): 教师 刚 开 始 会 展示 更 容易 、 更 典型 的 示例 ， 然 
后 帮助 学 习 者 在 不 太 显然 的 情况 下 提 烽 决策 面 。 在 人 类 教学 上 ， 基 于 课程 学 习 的 
策略 比 基 于 样本 均匀 采样 的 策略 更 有 效 ， 也 能 提高 其 他 学 习 策 略 的 效率 (Basu and 
Christensen，2013)。 
课程 学 习 研 究 的 另 一 个 重要 贡献 体现 在 训练 循环 神经 网 络 捕获 长 期 依赖 : 
Zaremba and Sutskever (2014) 发 现 使 用 随机 课程 获得 了 更 好 的 结果 ， 其 中 容易 和 困 
难 的 示例 混合 在 一 起 ， 随 机 提供 给 学 习 者 ， 更 难 示 例 (这 些 具有 长 期 依赖 ) 的 平均 
比例 在 逐渐 上 升 。 而 使 用 确定 性 课程 ， 并 没有 发 现 超过 基线 (完整 训练 集 的 普通 训 
练 ) 的 改进 。 

现在 我 们 已 经 介绍 了 一 些 基 本 的 神经 网 络 模型 ， 以 及 如 何 进行 正则 化 和 优化 。 
在 接 下 来 的 章节 中 ， 我 们 转向 特 化 的 神经 网 络 家 族 ， 人 允许 其 扩展 到 能 够 处 理 很 大 规 
模 的 数据 和 具有 特殊 结构 的 数据 。 在 本 章 中 讨论 的 优化 算法 在 较 少 改动 后 或 者 无 需 
改动 ， 通 带 就 可 以 直接 用 于 这 些 特 化 的 架构 。 












































第 九 章 。” 卷 积 网 络 


卷 积 网 络 ( convolutional network ) (LeCun, 1989), 也 叫做 卷 积 神经 网 络 ( con- 
volutional neural network,， CNN )， 是 一 种 专门 用 来 处 理 具 有 类 似 网 格 结构 的 数据 的 
神经 网 络 。 例 如 时 间 序 列 数据 〈 可 以 认为 是 在 时 间 轴 上 有 规律 地 采样 形成 的 一 维 网 
格 ) 和 图 像 数 据 〈 可 以 看 作 是 二 维 的 像素 网 格 )。 卷 积 网 络 在 诸多 应 用 领域 都 表现 优 
异 。“ 卷 积 神经 网 络 ”一 词 表明 该 网 络 使 用 了 卷 积 〈convolution ) 这 种 数学 运算 。 卷 
积 是 一 种 特殊 的 线性 运算 。 卷 积 网 络 是 指 那些 至 少 在 网 络 的 一 层 中 使 用 卷 积 运算 来 
替代 一 般 的 天 阵 乘 法 运算 的 神经 网 络 。 

本 章 ， 我 们 首先 说 明 什么 是 卷 积 运算 。 接 着 ， 我 们 会 解释 在 神经 网 络 中 使 用 卷 

职 运算 的 动机 。 然 后 我 们 会 介绍 池 化 〈pooling ), 这 是 一 种 几乎 所 有 的 卷 积 网 络 都 会 
用 到 的 操作 。 通 常 来 说 ， 卷 积 神经 网 络 中 用 到 的 卷 积 运算 和 其 他 领域 (例如 工程 领 
域 以 及 纯 数 学 领域 ) 中 的 定义 并 不 完全 一 致 。 我 们 会 对 神经 网 络 实践 中 广泛 应 用 的 
几 种 卷 积 函 数 的 变 体 进 行 说明。 我 们 也 会 说 明 如 何在 多 种 不 同 维 数 的 数据 上 使 用 卷 

职 运算 。 之 后 我 们 讨论 使 得 卷 积 运算 更 加 高 效 的 一 些 方法 。 卷 积 网 络 是 神经 科学 原 
理 影 响 次 度 学 习 的 典型 代表 。 我 们 之 后 也 会 讨论 这 些 神 经 科学 的 原理 ， 并 对 卷 积 网 
络 在 深度 学 习 发 展 史 中 的 作用 作出 评价 。 本 章 没 有 涉及 如 何 为 你 的 卷 积 网 络 选择 合 
适 的 结构 ， 因 为 本 章 的 目标 是 说 明 卷 积 网 络 提供 的 各 种 工具 。 第 十 一 章 将 会 对 如 何 
在 具体 环境 中 选择 使 用 相应 的 工具 给 出 通用 的 准则 。 对 于 卷 积 网 络 结构 的 研究 进展 
得 如 此 迅速 ， 以 至 于 针对 特定 基准 (benchmark)， 数 月 甚至 几 周 就 会 公开 一 个 新 的 
最 优 的 网 络 结构 ， 甚 至 在 写 这 本 书 时 也 不 好 描述 究竟 哪 种 结构 是 最 好 的 。 然 而 ， 最 
好 的 结构 也 是 由 本 章 所 描述 的 基本 部 件 逐 步 搭建 起 来 的 。 
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9.1 “ 卷 积 运算 





在 通常 形式 中 ， 卷 积 是 对 两 个 实 变 函 数 的 一 种 数学 运算 1!。 为 了 给 出 卷 积 的 定义 ， 
我 们 从 两 个 可 能 会 用 到 的 函数 的 例子 出 发 。 

假设 我 们 正在 用 激光 传感器 追踪 一 盘 宇 宙 飞 船 的 位 置 。 我 们 的 激光 传 感 咒 给 出 
一 个 单独 的 输出 z( 雪 ， 表 示 宇 宙 飞 船 在 时 刻 上 的 位 置 。z 和 上 上 都 是 实 值 的 ， 这 意味 
着 我 们 可 以 在 任意 时 刻 从 传感器 中 读 出 飞船 的 位 置 。 

现在 假设 我 们 的 传感器 受到 一 定 程度 的 噪声 干扰 。 为 了 得 到 飞船 位 置 的 低 噪声 
估计 ， 我 们 对 得 到 的 测量 结果 进行 平均。 显然， 时 间 上 越 近 的 测量 结果 越 相 关 ， 所 
以 我 们 采用 一 种 加 权 平 均 的 方法 ， 对 于 最 近 的 测量 结果 赋予 更 高 的 权重 。 我 们 可 以 
采用 一 个 加 权 冰 数 w(o) 来 实现 ,其 中 a 表示 测量 结果 上 距 当 前 时 刻 的 时 间 间 隔 。 如 果 
我 们 对 任意 时 刻 都 采用 这 种 加 权 平 均 的 操作 ， 就 得 到 了 一 个 新 的 对 于 飞船 位 置 的 平 
滑 估计 函数 s: 











5 人 (tb) 三 /ood 一 aaa. (9.1) 
这 种 运算 就 叫做 卷 积 (convolution )。 卷 积 运算 通常 用 星 号 表示 : 
S 人 (三 (zk 侯 )( 介 . (9.2) 


在 我 们 的 例子 中 ，w 必须 是 一 个 有 效 的 概率 密度 函数 ， 否 则 输出 就 不 再 是 一 个 
加 权 平 均 。 另 外 ,在 参数 为 负 值 时 ，v 的 取 值 必须 为 0， 否 则 它 会 预测 到 未 来 ， 这 不 
是 我 们 能 够 推测 得 了 的 。 但 这 些 限制 仅仅 是 对 我 们 这 个 例子 来 说 。 通 常 ， 卷 积 被 定 
义 在 满足 上 述 积分 式 的 任意 函数 上 ， 并 且 也 可 能 被 用 于 加 权 平 均 以 外 的 目的 。 

在 卷 积 网 络 的 术语 中 , 卷 积 的 第 一 个 参数 ( 在 这 个 例子 中 , 函数 > ) 通常 叫做 输 
入 (input )， 第 二 个 参数 (函数 w ) 叫做 核 函 数 (kernel function )。 输 出 有 时 被 称 
作 特征 映射 (feature map )。 

在 本 例 中 ， 激 光 传 感 器 在 每 个 瞬间 反馈 测量 结果 的 想法 是 不 切实 际 的 。 一 般 地 ， 
当 我 们 用 计算 机 处 理 数据 时 ,时 间 会 被 离散 化 ,传感器 会 定期 地 反馈 数据 。 所 以 在 我 
们 的 例子 中 ,假设 传感器 每 秒 反 馈 一 次 测量 结果 是 比较 现实 的 。 这 样 , 时 刻 只 能 取 
整数 值 。 如 果 我 们 假设 zx 和 vw 都 定义 在 整数 时 刻 二 上 ， 就 可 以 定义 离散 形式 的 卷 积 : 








Ooe 


s 扫 一 (Zru) 的 = >》 7z(ouwlt 一 oa) (9.3) 


Q 一 一 OO 








+ 译 者 注 : 本 书 中 operation 视 语 境 有 时 翻译 成 “运算 ”， 有 时 翻译 成 “操作 ”。 
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在 机 天 学 习 的 应 用 中 ， 输 入 通常 是 多 维 数组 的 数据 ， 而 核 通常 是 由 学 习 算 法 优 
化 得 到 的 多 维 数组 的 参数 。 我 们 把 这 些 多 维 数组 叫做 张 量 。 因 为 在 输入 与 核 中 的 每 

一 个 元 素 都 必须 明确 地 分 开 存 储 ， 我 们 通常 假设 在 存储 了 数值 的 有 限 点 集 以 外 ， 这 
些 函 数 的 值 都 为 零 。 这 意味 着 在 实际 操作 中 ， 我 们 可 以 通过 对 有 限 个 数组 元 素 的 求 
和 来 实现 无 限 求 和 。 

最 后 ， 我 们 经 常 一 次 在 多 个 维度 上 进行 卷 积 运算 。 例 如 ， 如 果 把 一 张 二 维 的 图 
像 了 作为 输入 ， 我 们 也 许 也 想 要 使 用 一 个 二 维 的 核 天 : 


9(2 力 =(T* 开 )( 记 0 (一 7 了 7 一刀). (9.4) 








卷 积 是 可 交换 的 (commnutative) ， 我 们 可 以 等 价 地 写作 : 
5S( 力 =(K*xD)( 0 7)). (9.5) 


通常 ， 下 面 的 公式 在 机 器 学 习 库 中 实现 更 为 简单 ， 因 为 mm 和 7? 的 有 效 取 值 范围 
相对 较 小 。 
卷 积 运算 可 交换 性 的 出 现 是 因为 我 们 将 核 相 对 输入 进行 了 翻转 (flip )， 从 mm 增 
大 的 角度 来 看 ， 输 入 的 索引 在 增 大 ， 但 是 核 的 索引 在 减 小 。 我 们 将 核 翻 转 的 唯一 目 
的 是 实现 可 交换 性 。 尽 管 可 交换 性 在 证 明 时 很 有 用 ， 但 在 神经 网 络 的 应 用 中 却 不 是 
一 个 重要 的 性 质 。 与 之 不 同 的 是 ,许多 神经 网 络 库 会 实现 一 个 相关 的 函数 ， 称 为 互 
相关 函数 〈cross-correlation )， 和 卷 积 运算 几乎 一 样 但 是 并 没有 对 核 进行 翻转 : 


5 人 (人 力 =(* 天) 人 二 7)). (9.6) 











许多 机 天 学 习 的 库 实现 的 是 互相 郑 数 但 是 称 之 为 卷 积 。 在 这 本 书 中 我 们 遵循 把 两 
种 运算 都 叫做 卷 积 的 这 个 传统 ， 在 与 核 翻 转 有 关 的 上 下 文中 ,我 们 会 特别 指明 是 否 
对 核 进行 了 翻转 。 在 机 器 学 习 中 , 学 习 算 法 会 在 核 合适 的 位 置 学 得 恰当 的 值 , 所 以 一 
个 基于 核 翻 转 的 卷 积 运算 的 学 习 算 法 所 学 得 的 核 ， 是 对 未 进行 翻转 的 算法 学 得 的 核 
的 翻转 。 单 独 使 用 卷 积 运算 在 机 器 学 习 中 是 很 少见 的 ， 卷 积 经 常 与 其 他 的 函数 一 起 
使 用 ， 无 论 卷 积 运 算是 否 对 它 的 核 进行 了 翻转 ， 这 些 函 数 的 组 合 通常 是 不 可 交换 的 。 


图 9.1 演 示 了 一 个 在 2 维 张 量 上 的 卷 积 运算 〈 没 有 对 核 进行 翻转 ) 的 例子 。 


离散 卷 积 可 以 看 作 和 矩阵 的 乘法 , 然而 , 这 个 矩阵 的 一 些 元 素 被 限制 为 必须 和 另外 
一 些 元 素 相等 。 例 如 对 于 单 变量 的 离散 卷 积 ， 和 矩阵 每 一 行 中 的 元 素 都 与 上 一 行 对 应 
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图 9.1: 一 个 2 维 卷 积 的 例子 (没有 对 核 进行 翻转 )。 
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我 们 限制 只 对 核 完 全 处 在 图 像 中 的 位 置 进行 





输出 ， 在 一 些 上 下 文中 称 为 “有 效 ” 卷 积 。 我 们 用 画 有 箭头 的 盒子 来 说 明和 输出 张 量 的 左上 角 元 素 是 
如 何 通过 对 输入 张 量 相应 的 左上 角 区 域 应 用 核 进行 卷 积 得 到 的 。 





























位 置 平 移 一 个 单位 的 元 素 相同 。 这 种 矩阵 叫做 
于 二 维 情况 ， 卷 积 对 应 着 一 个 双重 分 块 循环 


Toeplitz 和 矩阵 ( Toeplitz matrix )。 对 
下 阵 〈 doubly block circulant matrix )。 


除了 这 些 元 素 相 等 的 限制 以 外 ， 卷 积 通常 对 应 着 一 个 非常 稀 玻 的 矩阵 〈 一 个 几乎 所 
有 元 素 都 为 零 的 矩阵 )。 这 是 因为 核 的 大 小 通常 要 远 小 于 输入 图 像 的 大 小 。 任 何 一 个 








使 用 矩阵 乘法 但 是 并 不 依赖 矩阵 结构 的 特殊 局 


E 质 的 神经 网 络 算法 ， 都 适用 于 卷 积 运 


算 ， 并 且 不 需要 对 神经 网 络 做 出 大 的 修改 。 典 型 的 卷 积 神经 网 络 为 了 更 有 效 地 处 理 


大 规模 输入 ， 确 实 使 用 了 一 些 专门 化 的 技巧 ， 
要 的 。 


但 这 些 在 理论 分 析 方面 并 不 是 严格 必 
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卷 积 运算 通过 三 个 重要 的 思想 来 帮助 改进 机 器 学 习 系 统 : 稀 朴 交互 (sparse 
interactions )、 参数 共享 (parameter sharing )、 等 变 表 示 (equivariant representa- 
tions )。 另 外 ， 卷 积 提 供 了 一 种 处 理 大 小 可 变 的 输入 的 方法 。 我 们 下 面 依次 介绍 这 些 


思想 


传统 的 神经 网 络 使 用 和 矩阵 乘法 来 建立 输入 与 输出 的 连接 关系 。 其 中 ， 参 数 氟 
阵 中 每 一 个 单独 的 参数 都 描述 了 一 个 输入 单元 与 一 个 输出 单元 间 的 交互 。 这 意 
味 着 每 一 个 输出 单元 与 每 一 个 输入 单元 都 产生 交互 。 然 而 ， 卷 积 网 络 具 有 稀 朴 交 
互 (sparse interactions ) (也 叫做 稀 朴 连接 (sparse connectivity ) 或 者 稀疏 权重 
(sparse weights ) ) 的 特征 。 这 是 使 核 的 大 小 远 小 于 输入 的 大 小 来 达到 的 。 举 个 例子 ， 
当 处 理 一 张 图 像 时 ， 输 入 的 图 像 可 能 包含 成 千 上 万 个 像素 点 ， 但 是 我 们 可 以 通过 只 
占用 几 十 到 上 百 个 像素 点 的 核 来 检测 一 些小 的 有 意义 的 特征 ， 例 如 图 像 的 边缘 。 这 
意味 着 我 们 需要 存储 的 参数 更 少 ， 不 仅 减 少 了 模型 的 存储 需求 ， 而 且 提 高 了 它 的 统 
计 效 率 。 这 也 意味 着 为 了 得 到 输出 我 们 只 需要 更 少 的 计算 量 。 这 些 效 率 上 的 提高 往 
往 是 很 显著 的 。 如 果 有 mm 个 输入 和 7 个 输出 ， 那 么 矩阵 乘法 需要 mm x 7m 个 参数 并 
且 相 应 算法 的 时 间 复 杂 度 为 O(m x mn) (对 于 每 一 个 例子 )。 如 果 我 们 限制 每 一 个 输 
出 拥有 的 连接 数 为 &， 那 么 稀 踊 的 连接 方法 只 需要 有 x 7 个 参数 以 及 O(E xm) 的 运 
行 时 间 。 在 很 多 实际 应 用 中 ， 只 需 保 持 友 比 mm 小 几 个 数量 级 ， 就 能 在 机 器 学 习 的 
任务 中 取得 好 的 表现 。 稀 玻 连接 的 图 形 化 解释 如 图 9.2 和 图 9.3 所 示 。 在 深度 卷 积 隐 
络 中 ， 处 在 网 络 深层 的 单元 可 能 与 绝 大 部 分 输入 是 间接 交互 的 ， 如 图 9.4 所 示 。 这 人 允 
许 网 络 可 以 通过 只 描述 稀疏 交互 的 基石 来 高 效 地 描述 多 个 变量 的 复杂 交互 。 

参数 共享 (Parameter sharing ) 是 指 在 一 个 模型 的 多 个 函数 中 使 用 相同 的 参数 。 
在 传统 的 神经 网 络 中 ,， 当 计算 一 层 的 输出 时 ,权重 矩阵 的 每 一 个 元 素 只 使 用 一 次 ,， 当 
它 乘 以 输入 的 一 个 元 素 后 就 再 也 不 会 用 到 了 。 作 为 参数 共享 的 同义词 ， 我 们 可 以 说 
一 个 网 络 含 有 绑 定 的 权重 (tied weights )， 因 为 用 于 一 个 输入 的 权重 也 会 被 绑 定 在 
其 他 的 权重 上 。 在 卷 积 神经 网 络 中 , 核 的 每 一 个 元 素 都 作用 在 输入 的 每 一 位 置 上 (是 
否 考虑 边界 像素 取决 于 对 边界 决策 的 设计 )。 卷 积 运 算 中 的 参数 共享 保证 了 我 们 只 需 
要 学 习 一 个 参数 集合 ， 而 不 是 对 于 每 一 位 置 都 需要 学 习 一 个 单独 的 参数 集合 。 这 虽 
然 没 有 改变 前 向 传播 的 运行 时 间 (〈 仍然 是 O(E x mn) )， 但 它 显著 地 把 模型 的 存储 需求 
降低 至 丰 个 参数 ,并 且 天 通常 要 比 mm 小 很 多 个 数量 级 。 因 为 mm 和 交通 党 有 着 大 致 
相同 的 大 小 , 上 在 实际 中 相对 于 mm xz? 是 很 小 的 。 因 此 ， 卷 积 在 存储 需求 和 统计 效 





















































286 


第 九 章 “” 卷 积 网 络 


@E 晤 总 首 合 
国 下 全 下 下 全 下 全 





图 9.2: 稀 玻 连接 ， 对 每 幅 图 从 下 往 上 看 。 我 们 强调 了 一 个 输入 单元 za 以 及 在 s 中 受 该 单元 影响 
的 输出 单元 。( 上 /) 当 s 是 由 核 宽 度 为 3 的 卷 积 产 生 时 ， 只 有 三 个 输出 受到 z 的 影响 *。( 下 ) 当 s 


是 由 久 























E 阵 乘法 产生 时 ， 连 接 不 再 是 稀 踊 的 ， 所 以 所 有 的 输出 都 会 受到 zs 的 影响 。 


率 方面 极 大 地 优 于 稠密 矩阵 的 乘法 运算 。 图 9.5 演示 了 参数 共享 是 如 何 实现 的 。 

作为 前 两 条 原则 的 一 个 实际 例子 ， 图 9.6 说 明了 稀 玻 连接 和 参数 共享 是 如 何 显著 
提高 线性 函数 在 一 张 图 像 上 进行 边缘 检测 的 效率 的 。 

对 于 卷 积 , 参数 共享 的 特殊 形式 使 得 神经 网 络 层 具有 对 平移 等 变 (equivariance ) 
的 性 质 。 如 果 一 个 函数 满足 输入 改变 , 输出 也 以 同样 的 方式 改变 这 一 性 质 , 我 们 就 说 
它 是 等 变 (equivariant) 的 。 特 别 地 ， 如 果 本 数 ftz) 与 g(z) 满足 fo(z)) = 9(F(z))， 
我 们 就 说 /z) 对 于 变换 9 具有 等 变性 。 对 于 卷 积 来 说 ， 如 果 令 9 是 输入 的 任意 平 
移 函 数 ， 那 么 卷 积 函 数 对 于 9 具有 等 变性 。 举 个 例子 ， 令 工 表示 图 像 在 整数 坐标 上 
的 亮度 函数 ，9 表示 图 像 函 数 的 变换 函数 (把 一 个 图 像 函数 映射 到 另 一 个 图 像 函 数 
的 函数 ) 使 得 卫 = 9( 门 ， 其 中 图 像 函数 也 满足 F(z,g) = T(z 一) 妨 。 这 个 函数 把 了 
中 的 每 个 像素 向 右 移动 一 个 单位 。 如 果 我 们 先 对 了 进行 这 种 变换 然后 进行 卷 积 操作 
所 得 到 的 结果 ， 与 先 对 了 进行 卷 积 然后 再 对 输出 使 用 平移 函数 9 得 到 的 结果 是 一 样 








的 。 





























当 处理 时 间 序 列 数 据 时 ， 这 意味 着 通过 卷 积 可 以 得 到 一 个 由 输入 中 出 现 不 同 特 








“ 译 者 注 : 原文 将 此 处 误 写成 了 也。 
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图 9.3: 稀 琉 连接 ， 对 每 幅 图 从 上 往 下 看 。 我 们 强调 了 一 个 输出 单元 ss 以 及 z 中 影响 该 单元 的 输 
和 人 单元。 这 些 单元 被 称 为 ss 的 接受 域 (receptive field ) *?。( 二 ) 当 s 是 由 核 宽度 为 3 的 卷 积 产 生 
时 ， 只 有 三 个 输入 影响 ss。(T 下 ) 当 s 是 由 抢 阵 乘法 产生 时 ， 连 接 不 再 是 稀 琉 的 ， 所 以 所 有 的 输入 


都 会 影响 ss。 


5 


图 9.4: 处 于 卷 积 网 络 更 深 的 层 中 的 单元 ， 它 们 的 接受 域 要 比 处 在 浅 层 的 单元 的 接受 域 更 大 。 如 果 
网 络 还 包含 类 似 步 幅 卷 积 〈 图 9.12 ) 或 者 池 化 〈 第 9.3 贡 ) 之 类 的 结构 特征 ， 这 种 效应 会 加 强 。 这 
意味 着 在 卷 积 网 络 中 尽管 直接 连接 都 是 很 稀 耻 的 ， 但 处 在 更 深 的 层 中 的 单元 可 以 间接 地 连接 到 全 
部 或 者 大 部 分 输入 图 像 。 

























































































全 
地 


288 卷 积 网 络 


sonosD 
@COELOSO 
Coso 
Gueose 
CD 








图 9.5: 参数 共享 。 黑 色 箭 头 表示 在 两 个 不 同 的 模型 中 使 用 了 特殊 参数 的 连接 。( 二 ) 黑色 箭头 表示 
在 卷 积 模型 中 对 3 元 素 核 的 中 间 元 素 的 使 用 。 因 为 参数 共享 ， 这 个 单独 的 参数 被 用 于 所 有 的 输入 
位 置 。( 下 ) 这 个 单独 的 黑色 箭头 表示 在 全 连接 模型 中 对 权重 矩阵 的 中 间 元 素 的 使 用 。 这 个 模型 没 
有 使 用 参数 共享 ， 所 以 参数 只 使 用 了 一 次 。 


















































征 的 时 刻 所 组 成 的 时 间 轴 。 如 果 我 们 把 输入 中 的 一 个 事件 向 后 延 时 ， 在 输出 中 仍然 
会 有 完全 相同 的 表示 ， 只 是 时 间 延 后 了 。 图 像 与 之 类 似 ， 卷 积 产 生 了 一 个 2 维 映射 
来 表明 某 些 特征 在 输入 中 出 现 的 位 置 。 如 果 我 们 移动 输入 中 的 对 象 ， 它 的 表示 也 会 
在 输出 中 移动 同样 的 量 。 当 处 理 多 个 输入 位 置 时 ， 一 些 作 用 在 邻居 像素 的 郴 数 是 很 
有 用 的 。 例 如 在 处 理 图 像 时 ， 在 卷 积 网 络 的 第 一 层 进行 图 像 的 边缘 检测 是 很 有 用 的 。 
相同 的 边缘 或 多 或 少 地 散落 在 图 像 的 各 处 ， 所 以 应 当 对 整个 图 像 进 行 参数 共享 。 但 
在 某 些 情 况 下 ， 我 们 并 不 和 大望 对 整 幅 图 进行 参数 共享 。 例 如 ， 在 处 理 已 经 通过 剪裁 
而 使 其 居中 的 人 脸 图 像 时 ， 我 们 可 能 想 要 提取 不 同位 置 上 的 不 同 特征 〈 处 理 人 脸 上 
部 的 部 分 网 络 需要 去 搜寻 眉毛 ， 处 理 人 脸 下 部 的 部 分 网 络 就 需要 去 搜寻 下 巴 了 )。 

卷 积 对 其 他 的 一 些 变换 并 不 是 天 然 等 变 的 ， 例 如 对 于 图 像 的 放 缩 或 者 旋转 变换 ， 
需要 其 他 的 一 些 机 制 来 处 理 这 些 变换 。 

最 后 ， 一 些 不 能 被 传统 的 由 《固定 大 小 的 ) 矩阵 乘法 定义 的 神经 网 络 处 理 的 特 
丈 数据， 可 能 通过 卷 积 神经 网 络 来 处 理 ， 我 们 将 在 第 9.7 节 中 进行 讨论 。 
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图 9.6: 边缘 检测 的 效率 。 右 边 的 图 像 是 通过 先 获得 原始 图 像 中 的 每 个 像素 ， 然 后 减 去 左边 相 邻 像 








素 的 值 而 形成 的 。 这 个 操作 给 出 了 输入 图 像 中 所 有 垂直 方向 上 的 边缘 的 强度 , 对 目标 检测 来 说 是 有 
用 的 。 两 个 图 像 的 高 度 均 为 280 个 像素 。 输 入 网 像 的 宽度 为 320 个 像素 ,而 输出 图 像 的 宽度 为 319 
个 像素 。 这 个 变换 可 以 通过 包含 两 个 元 素 的 卷 积 核 来 描述 , 使 用 卷 积 需要 319 x 280 x 3 = 267, 960 





次 浮 点 运算 〈 每 
































个 输出 像素 需要 两 次 乘法 和 一 次 加 法 )。 为 了 用 和 矩阵 乘法 描述 相同 的 变换 ， 需 要 一 





个 包含 320 x 280 x 319 x 280 个 或 者 说 超过 80 亿 个 元 素 的 和 矩阵， 这 使 得 卷 积 对 于 表示 这 种 变换 
更 有 效 40 亿 倍 。 直 接 运 行 和 矩阵 乘 法 的 算法 将 执行 超过 160 亿 次 浮 点 运算 ， 这 使 得 卷 积 在 计算 上 大 


约 有 60,000 倍 的 效率 。 当 然 ， 和 矩阵 的 大 多 数 元 素 将 为 零 。 如 果 我 们 只 存储 矩阵 的 非 零 元 ， 则 矩阵 














乘法 和 卷 积 都 需要 相同 数量 的 浮 点 运算 来 计算 。 拖 阵 仍 然 需要 包含 2 x 319 x 280 = 178, 640 个 元 
素 。 将 小 的 局 部 区 域 上 的 相同 线性 变换 应 用 到 整个 输入 上 ， 卷 积 是 描述 这 种 变换 的 极其 有 效 的 方 


法 。 照 片 来 源 : 























Paula Goodfellow。 
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9.3  ” 池 化 


卷 积 网 络 中 一 个 典型 层 包 含 三 级 ( 如 图 9.7 所 示 )。 在 第 一 级 中 , 这 一 层 并 行 地 计 
算 多 个 卷 积 产生 一 组 线性 激活 响应 。 在 第 二 级 中 , 每 一 个 线性 激活 响应 将 会 通过 一 个 
非 线 性 的 激活 函数 ， 例 如 整流 线性 激活 函数 。 这 一 级 有 时 也 被 称 为 探测 级 ( detector 
stage )。 在 第 三 级 中 ， 我 们 使 用 池 化 函数 (pooling function ) 来 进一步 调整 这 一 层 
的 输出 。 














Complex layer terminology Simple layer terminology 


Next layer Next layer 


Pooling layer 


Detector layer: Nonlinearity 


Convolutional Layer 


Pooling stage 


Detector stage: 
Nonlinearity 


e.g., ITectified linear 


e.g., ITectifed linear 
Convolution stage: Convolution layer: 
A 生 ne transform Afhne transform 
Input to layer Input to layers 


图 9.7: 一 个 典型 卷 积 神经 网 络 层 的 组 件 。 有 两 组 常用 的 术语 用 于 描述 这 些 层 。( 左 ) 在 这 组 术语 中 ， 
卷 积 网 络 被 视 为 少量 相对 复杂 的 层 ， 每 层 具有 许多 “级 ”。 在 这 组 术语 中 ， 核 张 量 与 网 络 层 之 间 存 
在 一 一 对 应 关系 。 在 本 书 中 ， 我 们 通常 使 用 这 组 术语 。( 右 ) 在 这 组 术语 中 ， 卷 积 网 络 被 视 为 更 多 
数量 的 简单 层 ; 每 一 个 处 理 步骤 都 被 认为 是 一 个 独立 的 层 。 这 意味 着 不 是 每 一 “ 层 ”都 有 参数 。 


































































































池 化 函数 使 用 某 一 位 置 的 相 邻 输出 的 总 体 统计 特征 来 代替 网 络 在 该 位 置 的 输出 。 
例如 ， 最 大 池 化 (max pooling ) 函数 (Zhou and Chellappa, 1988) 给 出 相 邻 矩形 区 
域内 的 最 大 值 。 其 他 带 用 的 池 化 冰 数 包括 相 邻 矩形 区 域内 的 平均 值 、 厂 ” 范 数 以 及 基 
于 据 中 心 像 素 虫 离 的 加 权 平 均 函 数 。 





9.3 池 化 291 


不 管 采 用 什么 样 的 池 化 函数 ， 当 输入 作出 少量 平移 时 ， 池 化 能 够 帮助 输入 的 表 
示 近 似 不 变 (invariant )。 对 于 平移 的 不 变性 是 指 当 我 们 对 输入 进行 少量 平移 时 ， 经 
过 池 化 函数 后 的 大 多 数 输出 并 不 会 发 生 改 变 。 图 9.8 用 了 一 个 例子 来 说 明 这 是 如 何 实 
现 的 。 局 部 平移 不 变性 是 一 个 很 有 用 的 性 质 ， 尤 其 是 当 我 们 关心 某 个 特征 是 否 出 现 
而 不 关心 它 出 现 的 具体 位 置 时 。 例 如 ， 当 判定 一 张 图 像 中 是 否 包含 人 脸 时 ， 我 们 并 
不 需要 知道 眼睛 的 精确 像素 位 置 ， 我 们 只 需要 知道 有 一 只 眼睛 在 脸 的 左边 ， 有 一 只 
在 右边 就 行 了 。 但 在 一 些 其 他 领域 ， 保 存 特征 的 具体 位 置 却 很 重要 。 例 如 当 我 们 想 
要 寻找 一 个 由 两 条 边 相 交 而 成 的 拐角 时 ， 我 们 就 需要 很 好 地 保存 边 的 位 置 来 判定 它 


们 是 否 相 交 。 
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图 9.8: 最 大 池 化 引入 了 不 变性 。( 上 十) 卷 积 层 中 间 输 出 的 视图 。 下 面 一 行 显示 非 线性 的 输出 。 上 面 
一 行 显示 最 大 池 化 的 输出 ， 每 个 池 的 宽度 为 三 个 像素 并 且 池 化 区 域 的 步 幅 为 一 个 像素 。( 下 /) 相同 
网 络 的 视 岁 ， 不 过 对 输入 右 移 了 一 个 像素 。 下 面 一 行 的 所 有 值 都 发 生 了 改变 ， 但 上 面 一 行 只 有 一 
半 的 值 发 生 了 改变 ， 这 是 因为 最 大 池 化 单元 只 对 周围 的 最 大 值 比较 敏感 ， 而 不 是 对 精确 的 位 置 。 


















































使 用 池 化 可 以 看 作 是 增加 了 一 个 无 限 强 的 先 验 : 这 一 层 学 得 的 函数 必须 具有 对 
少量 平移 的 不 变性 。 当 这 个 假设 成 立时 ， 池 化 可 以 极 大 地 提高 网 络 的 统计 效率 。 

对 空间 区 域 进行 池 化 产生 了 平移 不 变性 ， 但 当 我 们 对 分 离 参数 的 卷 积 的 输出 进 
行 池 化 时 ， 特 征 能 够 学 得 应 该 对 于 哪 种 变换 具有 不 变性 〈 如 岁 9.9 所 示 ) 
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图 9.9: 学 习 不 变性 的 示例 。 使 用 分 离 的 参数 学 得 多 个 特征 ， 再 使 用 池 化 单元 进行 池 化 ， 可 以 学 得 
对 输入 的 某 些 变换 的 不 变性 。 这 里 我 们 展示 了 用 三 个 学 得 的 过 滤器 和 一 个 最 大 池 化 单元 可 以 学 得 
对 旋转 变换 的 不 变性 。 这 三 个 过 滤器 都 旨 在 检测 手写 的 数字 5。 每 个 过 滤器 尝试 匹配 稍微 不 同方 向 
的 5。 当 输入 中 出 现 5 时 ， 相 应 的 过 滤器 会 匹配 它 并 且 在 探测 单元 中 引起 大 的 激活 。 然 后 ， 无 论 哪 
个 探测 单元 被 激活 ， 最 大 池 化 单元 都 具有 大 的 激活 。 我 们 在 这 里 演示 了 网 络 如 何 处 理 两 个 不 同 的 输 
入 ， 这 导致 两 个 不 同 的 探测 单元 被 激活 ， 然 而 对 池 化 单元 的 影响 大 致 相同 。 这 个 原则 在 maxonut 网 
络 (Goodfellow et al., 2013b) 和 其 他 卷 积 网 络 中 更 有 影响 。 空 间 位 置 上 的 最 大 池 化 对 于 平移 是 天 
然 不 变 的 ; 这 种 多 通道 方法 只 在 学 习 其 他 变换 时 是 必要 的 。 


































































































因为 池 化 综合 了 全 部 邻居 的 反馈 ， 这 使 得 池 化 单元 少 于 探测 单元 成 为 可 能 ， 我 
们 可 以 通过 综合 池 化 区 域 的 & 个 像素 的 统计 特征 而 不 是 单个 像素 来 实现 。 图 9.10 给 
出 了 一 个 例子 。 这 种 方法 提高 了 网 络 的 计算 效率 ， 因 为 下 一 层 少 了 约 天 倍 的 输入 。 
当下 一 层 的 参数 数目 是 关于 那 一 层 输 入 大 小 的 函数 时 〈 例 如 当下 一 层 是 全 连接 的 基 
于 矩阵 乘法 的 网 络 层 时 )， 这 种 对 于 输入 规模 的 减 小 也 可 以 提高 统计 效率 并 且 减 少 对 
于 参数 的 存储 需求 。 


在 很 多 任务 中 ， 池 化 对 于 处 理 不 同 大 小 的 输入 具有 重要 作用 。 例 如 我 们 想 对 不 
同 大 小 的 图 像 进行 分 类 时 ， 分 类 层 的 输入 必须 是 固定 的 大 小 ， 而 这 通常 通过 调整 池 
化 区 域 的 伺 置 大 小 来 实现 ， 这 样 分 类 层 总 是 能 接收 到 相同 数量 的 统计 特征 而 不 管 最 
初 的 输入 大 小 了 。 例 如 ， 最 终 的 池 化 层 可 能 会 输出 四 组 综合 统计 特征 ， 每 组 对 应 着 
图 像 的 一 个 象限 ， 而 与 图 像 的 大 小 无 关 。 


一 些 理 论 工 作对 于 在 不 同情 况 下 应 当 使 用 哪 种 池 化 函数 给 出 了 一 些 指导 
(Boureau et aoL.，2010)。 将 特征 一 起 动态 地 池 化 也 是 可 行 的 ， 例 如 ， 对 于 感 兴 
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图 9.10: 带 有 降 采样 的 池 化 。 这 里 我 们 使 用 最 大 池 化 ， 池 的 宽度 为 三 并 且 池 之 间 的 步 幅 为 二 。 这 使 
得 表示 的 大 小 减少 了 一 半 ， 减 轻 了 下 一 层 的 计算 和 统计 负担 。 注 意 到 最 右边 的 池 化 区 域 太 二 较 小 ， 
但 如 果 我 们 不 想 忽 略 一 些 探测 单元 的 话 就 必须 包含 这 个 区 域 。 




















特征 的 位 置 运行 聚 类 算法 (Boureau et al.,， 2011)。 这 种 方法 对 于 每 幅 图 像 产 生 一 个 
不 同 的 池 化 区 域 集合 。 另 一 种 方法 是 先 学 习 一 个 单独 的 池 化 结构 ， 再 应 用 到 全 部 的 
图 像 中 (Jia et al., 2012)。 

池 化 可 能 会 使 得 一 些 利用 自 顶 向 下 信息 的 神经 网 络 结构 变 得 复杂 ， 例 如 玻 尔 效 
曼 机 和 自 编码 器 。 这 些 问 题 将 在 第 三 草 中 当 我 们 遇 到 这 些 类 型 的 网 络 时 进一步 讨论 。 
卷 积 玻 尔 兹 曼 机 中 的 池 化 出 现在 第 20.6 节 。 一 些 可 微 网 络 中 需要 的 在 池 化 单元 上 进 
行 的 类 道 运算 将 在 第 20.10.6 节 中 讨论 。 

图 9.11 给 出 了 一 些 使 用 卷 积 和 池 化 操作 的 用 于 分 类 的 完整 卷 积 网 络 结构 的 例子 。 











294 第 九 章 “” 卷 积 网 络 


Uutput of Softmax: Uutput of Softmax: Uutput of Softmax: 
1;000 class 1;000 class 1;000 class 
Probabilities Probabilities Probabilities 


Output of matrix Output of matrix Output of average 
multiply: 1,000 units multiply: 1,000 units pooling: 1xlxl1,000 


Uutput of reshape to Uutput of reshape to Uutput o 


Vector: Vector: convolution: 


16,384 units 576 units 16x16xl,000 


With s With s 
16xl6x64 3x3 grid: 3x3x64 16x16x64 


Uutput o Uutput o Uutput o 
convolution 十 convolution 十 convolution 十 
ReLU: 64x64x64 ReLU: 64x64x64 ReLU: 64x64x64 


UUIEDuE opooIimng UUIEDuUE opPooIimng UUIEDuUE opPooIimng 
with stride 4: with stride 4: with stride 4: 
64x64x64 64x64x64 64x64x64 


Uutput o Uutput o Uutput o 
convolution 十 convolution 十 convolution 十 


ReLU: 256x256x64 ReLU: 256x256x64 ReLU: 256x256x64 


256x256x3 256x256x3 256x256x3 
图 9.11: 卷 积 网 络 用 于 分 类 的 结构 示例 。 本 图 中 使 用 的 具体 步 幅 和 深度 并 不 建议 实际 使 用 ; 它们 
被 设计 得 非常 浅 以 适合 页 面 。 实 际 的 卷 积 网 络 还 常常 涉及 大 量 的 分 支 ， 不 同 于 这 里 为 简单 起 见 所 
使 用 的 链 式 结构 。( 左 ) 处 理 固定 大 小 的 图 像 的 卷 积 网 络 。 在 卷 积 层 和 池 化 层 几 层 交替 之 后 ， 卷 积 
村 征 映 射 的 张 量 被 重新 变形 以 展 平 空间 维度 。 网 络 的 其 余部 分 是 一 个 普通 的 前 馈 网 络 分 类 器 ， 如 
第 六 章 所 述 。( 中 /) 处 理 大 小 可 变 的 图 像 的 卷 积 网 络 ， 但 仍 保持 全 连接 的 部 分 。 该 网 络 使 用 具有 可 
变 大 小 但 是 数量 固定 的 池 的 池 化 操作 ， 以 便 向 网 络 的 全 连接 部 分 提供 固定 576 个 单位 大 小 的 向 量 。 
( 右 ) 没有 任何 全 连接 权重 层 的 卷 积 网 络 。 相 对 的 ， 最 后 的 卷 积 层 为 每 个 类 输出 一 个 特征 映射 。 该 
模型 可 能 会 用 来 学 习 每 个 类 出 现在 每 个 空间 位 置 的 可 能 性 的 映射 。 将 特征 映射 进行 平均 得 到 的 单 
个 值 ， 提 供 了 顶部 softmax 分 类 器 的 变量 。 
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回忆 一 下 第 5.2 节 中 先 验 概 率 分 布 (prior probability distribution ) 的 概念 。 这 
是 一 个 模型 参数 的 概率 分 布 ， 它 刻画 了 在 我 们 看 到 数据 之 前 我 们 认为 什么 样 的 模型 
是 合理 的 信念 。 

先 验 被 认为 是 强 或 者 弱 取 决 于 先 验 中 概率 密度 的 集中 程度 。 弱 先 验 具 有 较 高 的 
彤 值 ， 例 如 方差 很 大 的 高 斯 分 布 。 这 样 的 先 验 允 许 数据 对 于 参数 的 改变 具有 或 多 或 
少 的 自由 性 。 强 先 验 具 有 较 低 的 和 值 ， 例 如 方差 很 小 的 高 斯 分 布 。 这 样 的 先 验 在 决 
定 参 数 最 终 取 值 时 起 着 更 加 积极 的 作用 。 

一 个 无 限 强 的 先 验 需 要 对 一 些 参 数 的 概率 置 零 并 且 完 全 禁止 对 这 些 参数 赋值 ， 
无 论 数据 对 于 这 些 参数 的 值 给 出 了 多 大 的 支持 。 

我 们 可 以 把 卷 积 网 络 类 比 成 全 连接 网 络 ， 但 对 于 这 个 全 连接 网 络 的 权重 有 一 个 
无 限 强 的 先 验 。 这 个 无 限 强 的 先 验 是 说 一 个 隐藏 单元 的 权重 必须 和 它 邻 居 的 权重 相 
同 ， 但 可 以 在 空间 上 移动 。 这 个 先 验 也 要 求 除了 那些 处 在 隐藏 单元 的 小 的 空间 连续 
的 接受 域内 的 权重 以 外 ， 其 余 的 权重 都 为 零 。 总 之 ,我们 可 以 把 卷 积 的 使 用 当 作 是 
对 网 络 中 一 层 的 参数 引入 了 一 个 无 限 强 的 先 验 概率 分 布 。 这 个 先 验 说 明了 该 层 应 该 
学 得 的 函数 只 包含 局 部 连接 关系 并 且 对 平移 具有 等 变性 。 类 似 的 ， 使 用 池 化 也 是 一 
个 无 限 强 的 先 验 : 每 一 个 单元 都 具有 对 少量 平移 的 不 变性 。 

当然 ， 把 卷 积 神经 网 络 当 作 一 个 具有 无 限 强 先 验 的 全 连接 网 络 来 实现 会 导致 极 

大 的 计算 浪费 。 但 把 卷 积 神经 网 络 想 成 具有 无 限 强 先 验 的 全 连接 网 络 可 以 帮助 我 们 
更 好 地 洞察 卷 积 神经 网 络 是 如 何 工 作 的 。 
其 中 一 个 关键 的 洞察 是 卷 积 和 池 化 可 能 导致 从 拟 合 。 与 任何 其 他 先 验 类 似 ， 卷 
积 和 池 化 只 有 当先 验 的 假设 合理 且 正 确 时 才 有 用 。 如 果 一 项 任务 依赖 于 保存 精确 
的 空间 信息 ， 那 么 在 所 有 的 特征 上 使 用 池 化 将 会 增 大 训练 误差 。 一 些 卷 积 网 络 结 
构 (Szegedy et al., 2014a) 为 了 既 获 得 具有 较 高 不 变性 的 特征 又 获得 当 平 移 不 变性 不 
合理 时 不 会 导致 从 拟 合 的 特征 ， 被 设计 成 在 一 些 通 道上 使 用 池 化 而 在 另 一 些 通 道上 
不 使 用 。 当 一 项 任务 涉及 到 要 对 输入 中 相隔 较 远 的 信息 进行 合并 时 ， 那 么 卷 积 所 利 
用 的 先 验 可 能 就 不 正确 了 。 

另 一 个 关键 洞察 是 当 我 们 比较 卷 积 模型 的 统计 学 习 表 现时 ， 只 能 以 基准 中 的 其 
他 卷 积 模型 作为 比较 的 对 象 。 其 他 不 使 用 卷 积 的 模型 即使 我 们 把 图 像 中 的 所 有 像素 
点 都 置换 后 依然 有 可 能 进行 学 习 。 对 于 许多 图 像 数 据 集 ， 还 有 一 些 分 别 的 基准 ， 有 
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些 是 针对 那些 具有 置换 不 变性 (permnutation invariant ) 并 且 必 须 通过 学 习 发 现 拓 
扑 结构 的 模型 ， 还 有 一 些 是 针对 模型 设计 者 将 空间 关系 的 知识 植 人 了 它们 的 模型 。 


9.5 “基本 卷 积 函 数 的 变 体 


当 在 神经 网 络 的 上 下 文中 讨论 卷 积 时 ， 我 们 通常 不 是 特 指数 学 文献 中 使 用 的 那 
种 标准 的 离散 卷 积 运算 。 实 际 应 用 中 的 函数 略 有 不 同 。 这 里 我 们 详细 讨论 一 下 这 些 
差异 ， 并 且 对 神经 网 络 中 用 到 的 函数 的 一 些 重要 性 质 进行 重点 说 明 。 

首先 ， 当 我 们 提 到 神经 网 络 中 的 卷 积 时 ， 我 们 通常 是 指 由 多 个 并 行 卷 积 组 成 的 
运算 。 这 是 因为 具有 单个 核 的 卷 积 只 能 提取 一 种 类 型 的 特征 ， 尽 管 它 作用 在 多 个 空 
间 位 置 上 。 我 们 通常 希望 网 络 的 每 一 层 能 够 在 多 个 位 置 提 取 多 种 类 型 的 特征 。 

另外 ， 输 入 通常 也 不 仅仅 是 实 值 的 网 格 ， 而 是 由 一 系列 观测 数据 的 向 量 构成 的 
网 格 。 例 如 ， 一 幅 彩色 图 像 在 每 一 个 像素 点 都 会 有 红 绿 蓝 三 种 颜色 的 亮度 。 在 多 层 
的 卷 积 网 络 中 ， 第 二 层 的 输入 是 第 一 层 的 输出 ， 通 常 在 每 个 位 置 包 含 多 个 不 同 卷 积 
的 输出 。 当 处 理 图 像 时 ， 我 们 通常 把 卷 积 的 输入 输出 都 看 作 是 3 维 的 张 量 ， 其 中 一 
个 索引 用 于 标明 不 同 的 通道 〈( 例 如 红 绿 蓝 )， 另 外 两 个 索引 标明 在 每 个 通道 上 的 空间 
坐标 。 软 件 实现 通常 使 用 批 处 理 模 式 ， 所 以 实际 上 会 使 用 4 维 的 张 量 ， 第 四 维 索引 
用 于 标明 批 处 理 中 不 同 的 实例 ， 但 我 们 为 简明 起 见 这 里 忽略 批 处 理 索引 。 

因为 卷 积 网 络 通常 使 用 多 通道 的 卷 积 ， 所 以 即使 使 用 了 核 翻 转 ， 也 不 一 定 保证 
网 络 的 线性 运算 是 可 交换 的 。 只 有 当 其 中 的 每 个 运算 的 输出 和 输入 具有 相同 的 通道 
数 时 ， 这 些 多 通道 的 运算 才 是 可 交换 的 。。 

假定 我 们 有 一 个 4 维 的 核 张 量 K， 它 的 每 一 个 元 素 是 Kxx， 表 示 输 出 中 处 于 
通道 ; 的 一 个 单元 和 输入 中 处 于 通道 7 中 的 一 个 单元 的 连接 强度 ， 并 且 在 输出 单元 
和 输入 单元 之 间 有 天 行列 的 俩 置 。 假 定 我 们 的 输入 由 观测 数据 V 组 成 ， 它 的 每 一 
个 元 素 是 Vi， 表示 处 在 通道 ;中 第 7 行 第 天 列 的 值 。 假 定 我 们 的 输出 Z 和 输入 
V 具有 相同 的 形式 。 如 果 输 出 Z 是 通过 对 K 和 V 进行 卷 积 而 不 涉及 翻转 K 得 到 
的 ,那么 
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77 
这 里 对 所 有 的 1，m 和 了? 进行 求 和 是 对 所 有 (在 求 和 式 中 ) 有 效 的 张 量 索引 的 值 进 
行 求 和 。 在 线性 代数 中 ， 向 量 的 索引 通常 从 1 开始 ， 这 就 是 上 述 公式 中 -1 的 由 来 。 
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但 是 像 C 或 Python 这 类 编程 语言 索引 通常 从 0 开始 ， 这 使 得 上 述 公式 可 以 更 加 简 
洁 。 

我 们 有 时 会 希望 跳 过 核 中 的 一 些 位 置 来 降低 计算 的 开销 《相应 的 代价 是 提取 
特征 没有 先前 那么 好 了 )。 我 们 可 以 把 这 一 过 程 看 作 是 对 全 卷 积 函数 输出 的 下 采样 
(downsampling)。 如 果 我 们 只 想 在 输出 的 每 个 方向 上 每 间隔 s 个 像素 进行 采样 ， 那 
么 我 们 可 以 定义 一 个 下 采样 卷 积 函 数 e 使 得 

2 三 c(K,V,s)ii 三 >， [人 全 河 交 KK 吉 串 ， (9.8) 
1 
我 们 把 s 称 为 下 采样 卷 积 的 步 幅 (stride )。 当 然 也 可 以 对 每 个 移动 方向 定义 不 同 的 
步 幅 。 图 9.12 演示 了 一 个 实例 。 

在 任何 卷 积 网 络 的 实现 中 都 有 一 个 重要 性 质 ， 那 就 是 能 够 隐 含 地 对 输入 V 用 零 
进行 填充 (pad) 使 得 它 加 宽 。 如 果 没 有 这 个 性 质 ,， 表 示 的 宽度 在 每 一 层 就 会 缩减 , 缩 
减 的 幅度 是 比 核 少 一 个 像素 这 么 多 。 对 输入 进行 零 填 充 允 许 我 们 对 核 的 宽度 和 输出 
的 大 小 进行 独立 的 控制 。 如 果 没 有 零 填 充 ， 我 们 就 被 迫 面 临 二 选 一 的 局 面 ， 要 么 选 
择 网 络 空间 宽度 的 快速 缩减 ， 要 么 选择 一 个 小 型 的 核 一 一 这 两 种 情境 都 会 极 大 得 限 
制 网 络 的 表示 能 力 。 图 9.13 给 出 了 一 个 例子 。 

有 三 种 零 填 充 设 定 的 情况 值得 注意 。 第 一 种 是 无 论 怎 样 都 不 使 用 零 填 充 的 极端 
情况 ， 并 且 卷 积 核 上 只 允许 访问 那些 图 像 中 能 够 完全 包含 整个 核 的 位 置 。 在 MATLAB 
的 术语 中 ， 这 称 为 有 效 〈valid ) 卷 积 。 在 这 种 情况 下 ， 输 出 的 所 有 像素 都 是 输入 中 
相同 数量 像素 的 函数 ， 这 使 得 输出 像素 的 表示 更 加 规范 。 然 而 ， 输 出 的 大 小 在 每 一 
层 都 会 缩减 。 如 果 输 入 的 图 像 宽 度 是 mm， 核 的 宽度 是 上， 那么 输出 的 宽度 就 会 变 成 
岂 一 上 十 1。 如 果 卷 积 核 非常 大 的 话 缩减 率 会 非常 显著 。 因 为 缩减 数 大 于 0， 这 限制 
了 网 络 中 能 够 包含 的 卷 积 层 的 层 数 。 当 层 数 增加 时 ， 网 络 的 空间 维度 最 终 会 缩减 到 
1 x1， 这 种 情况 下 增加 的 层 就 不 可 能 进行 有 意义 的 卷 积 了 。 第 二 种 特殊 的 情况 是 只 
进行 足够 的 零 填 充 来 保持 输出 和 输入 具有 相同 的 大 小 。 在 MATLAB 的 术语 中 ， 这 
称 为 相同 (same ) 卷 积 。 在 这 种 情况 下 ， 只 要 硬件 支持 ， 网 络 就 能 包含 任意 多 的 卷 
积 层 ， 这 是 因为 卷 积 运算 不 改变 下 一 层 的 结构 。。 然 而 ， 输 入 像素 中 靠近 边界 的 部 分 
相 比 于 中 间 部 分 对 于 输出 像素 的 影响 更 小 。 这 可 能 会 导致 边界 像素 存在 一 定 程度 的 
从 表示 。 这 使 得 第 三 种 极端 情况 产生 了 , 在 MATLAB 中 称 为 全 (full ) 卷 积 。 它 进 
行 了 足够 多 的 零 填 充 使 得 每 个 像素 在 每 个 方向 上 恰好 被 访问 了 上 天 次 ， 最 终 得 出 图 像 
的 宽度 为 由 二 -1。 在 这 种 情况 下 ， 输 出 像素 中 靠近 边界 的 部 分 相 比 于 中 间 部 分 是 
更 少 像素 的 函数 。 这 将 导致 学 得 一 个 在 卷 积 特 征 映 射 的 所 有 位 置 都 表现 不 错 的 单 核 
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Strided 
convolution 
Downsampling 


Convolution 


图 9.12: 带 有 步 幅 的 卷 积 。 在 这 个 例子 中 , 我 们 的 步 幅 为 二 。( 二 /在 单个 操作 中 实现 的 步 幅 为 二 的 
卷 积 。( 下 ) 步 幅 大 于 一 个 像素 的 卷 积 在 数学 上 等 价 于 单位 步 幅 的 卷 积 随 后 降 采 样 。 显 然 ， 涉 及 降 采 
样 的 两 步 法 在 计算 上 是 浪费 的 ， 因 为 它 计算 了 许多 将 被 丢弃 的 值 。 






































更 为 困难 。 通 常 零 填 充 的 最 优 数量 ( 对 于 测试 集 的 分 类 正确 率 ) 处 于 “有 效 卷 积 ” 币 
“相同 卷 积 ”之 间 的 某 个 位 置 。 

在 一 些 情况 下 ， 我 们 并 不 是 真 的 想 使 用 卷 积 ， 而 是 想 用 一 些 局 部 连接 的 网 络 层 
(LeCun, 1986, 1989)。 在 这 种 情况 下 ， 我 们 的 多 层 感 知 机 对 应 的 邻接 算 阵 是 相同 的 ， 
但 每 一 个 连接 都 有 它 自己 的 权重 ， 用 一 个 6 维 的 张 量 W 来 表示 。W 的 索引 分 别 是 
输出 的 通道 ?， 输 出 的 行 7 和 列 天， 输入 的 通道 7， 输入 的 行 偏 置 m 和 列 偏 置 2%。 局 
部 连接 层 的 线性 部 分 可 以 表示 为 
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图 9.13: 零 填充 对 网 络 大 小 的 影响 。 考 虑 一 个 卷 积 网 络 ， 每 层 有 一 个 宽度 为 六 的 核 。 在 这 个 例子 
中 ， 我 们 不 使 用 任何 池 化 ， 所 以 只 有 卷 积 操作 本 身 缩 小 网 络 的 大 小 。( 廿 ) 在 这 个 卷 积 网 络 中 ,我 
们 不 使 用 任何 隐 含 的 零 填 充 。 这 使 得 表示 在 每 层 缩小 五 个 像素 。 从 十 六 个 像素 的 输入 开始 ,我们 
只 能 有 三 个 卷 积 层 ， 并 且 最 后 一 层 不 能 移动 核 ， 所 以 可 以 说 只 有 两 层 是 真正 的 卷 积 层 。 可 以 通过 
使 用 较 小 的 核 来 减缓 收缩 速率 ， 但 是 较 小 的 核 表示 能 力 不 足 ， 并 且 在 这 种 结构 中 一 些 收缩 是 不 可 
避免 的 。( 下 /) 通过 向 每 层 添加 五 个 隐 含 的 零 ， 我 们 防止 了 表示 随 深 度 收缩 。 这 允许 我 们 设计 一 个 
任意 深 的 卷 积 网 络 。 





























































































































这 有 时 也 被 称 为 非 共 享 卷 积 (unshared convolution )， 因 为 它 和 具有 一 个 小 核 的 离 
散 卷 积 运算 很 像 ， 但 并 不 横 跨 位 置 来 共享 参数 。 网 9.14 比 较 了 局 部 连接 、 卷 积 和 全 连 
接 的 区 别 。 

当 我 们 知道 每 一 个 特征 都 是 一 小 块 空间 的 函数 并 且 相 同 的 特征 不 会 出 现在 所 有 
的 空间 上 时 ， 局 部 连接 层 是 很 有 用 的 。 例 如 ， 如 果 我 们 想 要 辨别 一 张 图 片 是 否 是 人 
脸 图 像 时 ， 我 们 只 需要 去 寻找 嘴 是 否 在 网 像 下 半 部 分 即 可 。 

使 用 那些 连接 被 更 进一步 限制 的 卷 积 或 者 局 部 连接 层 也 是 有 用 的 ， 例 如 ， 限 天 
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图 9.14: 局 部 连接 ， 卷 积 和 全 连接 的 比较 。( 士 ) 每 一 小 片 〈 接 受 域 ) 有 两 个 像素 的 局 部 连接 层 。 每 
条 边 用 唯一 的 字母 标记 ， 来 显示 每 条 边 都 有 自身 的 权重 参数 。( 中 ) 核 宽 度 为 两 个 像素 的 卷 积 层 。 
该 模型 与 局 部 连接 层 具有 完全 相同 的 连接 。 区 别 不 在 于 哪些 单元 相互 交互 ， 而 在 于 如 何 共享 参数 。 
局 部 连接 层 没 有 参数 共享 。 正 如 用 于 标记 每 条 边 的 字母 重复 出 现 所 指示 的 ， 卷 积 层 在 整个 输入 上 
重复 使 用 相同 的 两 个 权重 。( 下 /) 全 连接 层 类 似 于 局 部 连接 层 ， 它 的 每 条 边 都 有 其 自身 的 参数 (在 
该 图 中 用 字母 明确 标记 的 话 就 太 多 了 )。 然 而 ， 它 不 具有 局 部 连接 层 的 连接 受 限 的 特征 。 

































































































































































每 一 个 输出 的 通道 宇 仅 仅 是 输入 通道 ! 的 一 部 分 的 郴 数 时 。 实 现 这 种 情况 的 一 种 通 
用 方法 是 使 输出 的 前 mm 个 通道 仅仅 连接 到 输入 的 前 ”个 通道 ， 输 出 的 接 下 来 的 mm 
个 通道 仅仅 连接 到 输入 的 接 下 来 的 个 通道 ， 以 此 类 推 。 图 9.15 给 出 了 一 个 例子 。 
对 少量 通道 间 的 连接 进行 建 模 允许 网 络 使 用 更 少 的 参数 ， 这 降低 了 存储 的 消耗 以 及 
提高 了 统计 效率 ， 并 且 减 少 了 前 向 和 反 向 传播 所 需要 的 计算 量 。 这 些 目标 的 实现 并 
没有 减少 隐藏 单元 的 数目 。 

平 铺 卷 积 (tiled convolution ) (Gregor and LeCun, 2010a; Le et al., 2010) 对 卷 
积 层 和 局 部 连接 层 进 行 了 折衷 。 这 里 并 不 是 对 每 一 个 空间 位 置 的 权重 集合 进行 学 习 ， 
我 们 学 习 一 组 核 使 得 当 我 们 在 空间 移动 时 它们 可 以 循环 利用 。 这 意味 着 在 近邻 的 位 
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置 上 拥有 不 同 的 过 滤器 ， 就 像 局 部 连接 层 一 样 ， 但 是 对 于 这 些 参数 的 存储 需求 仅仅 
会 增长 常数 倍 ， 这 个 常数 就 是 核 的 集合 的 大 小 ， 而 不 是 整个 输出 的 特征 映射 的 大 小 。 
图 9.16 对 局 部 连接 层 、 平 铺 卷 积 和 标准 卷 积 进行 了 比较 。 

为 了 用 代数 的 方法 定义 平 铺 卷 积 ， 令 K 是 一 个 6 维 的 张 量 5， 其 中 的 两 维 对 应 
着 输出 映射 中 的 不 同位 置 。K 在 这 里 并 没有 对 输出 映射 中 的 每 一 个 位 置 使 用 单独 的 
索引 ， 输 出 的 位 置 在 每 个 方向 上 在 二 个 不 同 的 核 组 成 的 集合 中 进行 循环 。 如 果 上 等 
于 输出 的 宽度 ， 这 就 是 局 部 连接 层 了 。 





Li 二 >， ViHm 一 LETKDDmnn7 叶 1 (9.10) 
1mmam 
这 里 百 分 号 是 取 模 运算 ， 它 的 性 质 包 括 1 = 0, (二 1)%t = 工 等 等 。 在 每 一 维 上 使 
用 不 同 的 寺 可 以 很 容易 对 这 个 方程 进行 扩展 。 

局 部 连接 层 与 平 铺 卷 积 层 都 和 最 大 池 化 有 一 些 有 趣 的 关联 : 这 些 层 的 探测 单元 
都 是 由 不 同 的 过 滤器 驱动 的 。 如 果 这 些 过 滤器 能 够 学 会 探测 相同 隐 含 特征 的 不 同 变 
换 形 式 ， 那 么 最 大 池 化 的 单元 对 于 学 得 的 变换 就 具有 不 变性 (如 图 9.9 所 示 )。 卷 积 
层 对 于 平移 具有 内 置 的 不 变性 。 

实现 卷 积 网 络 时 ， 通 常 也 需要 除 卷 积 以 外 的 其 他 运算 。 为 了 实现 学 习 ， 必 须 在 
给 定 输出 的 梯度 时 能 够 计算 核 的 梯度 。 在 一 些 简 单 情 况 下 ， 这 种 运算 可 以 通过 卷 积 
来 实现 ， 但 在 很 多 我 们 感 兴趣 的 情况 下 ， 包 括 步 幅 大 于 1] 的 情况 ， 并 不 具有 这 样 的 
性 质 。 

回忆 一 下 卷 积 是 一 种 线性 运算 ， 所 以 可 以 表示 成 矩阵 乘法 的 形式 (如果 我 们 首 
先 把 输入 张 量变 形 为 一 个 扁平 的 向 量 )。 其 中 包含 的 矩阵 是 关于 卷 积 核 的 困 数 。 这 个 
和 抢 阵 是 稀 玻 的 并 且 核 的 每 个 元 素 都 复制 给 矩阵 的 多 个 元 素 。 这 种 观点 能 够 帮助 我 们 
导出 实现 一 个 卷 积 网 络 所 需 的 很 多 其 他 运算 。 

通过 卷 积 定义 的 矩阵 转 置 的 乘法 就 是 这 样 一 种 运算 。 这 种 运算 用 于 在 卷 积 层 反 
向 传播 误差 的 导数 , 所 以 它 在 训练 多 于 一 个 隐藏 层 的 卷 积 网 络 时 是 必要 的 。 如 果 我 们 
想 要 从 隐藏 层 单元 重 构 可 视 化 单元 时 ， 同 样 的 运算 也 是 需要 的 (Simard et al!.，1992)。 
重 构 可 视 化 单元 是 本 书 第 三 部 分 的 模型 广泛 用 到 的 一 种 运算 ， 这 些 模 型 包括 自 编码 
器 、RBM 和 稀 玻 编码 等 等 。 构 建 这 些 模型 的 卷 积 化 的 版 本 都 要 用 到 转 置 化 卷 积 。 类 
似 核 梯度 运算 ， 这 种 输入 梯度 运算 在 某 些 情况 下 可 以 用 卷 积 来 实现 ， 但 在 一 般 情 况 
F 需 要 用 到 第 三 种 运算 来 实现 。 必 须 非 常 小 心地 来 使 这 种 转 置 运算 和 前 向 传播 过 程 

5 译 者 注 : 原文 将 K 误 写成 了 K。 
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相 协调 。 转 置 运算 返回 的 输出 的 大 小 取决 于 三 个 方面 : 零 填 充 的 策略 、 前 向 传播 运 
算 的 步 幅 以 及 前 向 传播 的 输出 映射 的 大 小 。 在 一 些 情况 下 ， 不 同 大 小 的 输入 通过 前 
向 传播 过 程 能 够 得 到 相同 大 小 的 输出 映射 ， 所 以 必须 明确 地 告知 转 置 运 算 原 始 输入 
的 大 小 。 

这 三 种 运算 一 一 卷 积 、 从 输出 到 权重 的 反 向 传播 和 从 输出 到 输入 的 反 向 传播 
一 一 对 于 训练 任意 深度 的 前 玺 卷 积 网 络 ， 以 及 训练 带 有 ( 基于 卷 积 的 转 置 的 ) 重 构 
函数 的 卷 积 网 络 ， 这 三 种 运算 都 足以 计算 它们 所 需 的 所 有 梯度 。 对 于 完全 一 般 的 多 
维 、 多 样 例 情 况 下 的 公式 ， 完 整 的 推导 可 以 参考 Goodfellow (2010)。 为 了 直观 说 明 
这 些 公 式 是 如 何 起 作用 的 ， 我 们 这 里 给 出 一 个 二 维 单个 样 例 的 版 本 。 

假设 我 们 想 要 训练 这 样 一 个 卷 积 网 络 ， 它 包含 步 幅 为 s 的 步 幅 卷 积 ， 该 卷 积 的 
核 为 K， 作 用 于 多 通道 的 图 像 V， 定 义 为 c(K,V,s)， 就 像 式 (9.8) 中 一 样 。 假 设 我 们 
想 要 最 小 化 某 个 损失 函数 J(V,K)。 在 前 向 传播 过 程 中 ， 我 们 需要 用 ec 本 身 来 输出 
Z， 然 后 Z 传递 到 网 络 的 其 余部 分 并 且 被 用 来 计算 损失 函数 J。 在 反 向 传播 过 程 中 ， 
我 们 会 得 到 一 个 张 量 G 满足 Gujr = 元 5 J(V,K)。 

为 了 训练 网 络 ， 我 们 需要 对 核 中 的 权重 求 导 。 为 了 实现 这 个 目的 ， 我 们 可 以 使 
用 一 个 函数 














9(G， V， 5)i 7 J(V， K) 一 人 Gi 天 员 Vj om 一 Dxs+TRn 一 TDxs+L (9.11) 
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如 果 这 一 层 不 是 网 络 的 底层 ,我们 需要 对 V 求 梯度 来 使 得 误差 进一步 反 向 传播 。 
我 们 可 以 使 用 如 下 的 冰 数 
O 


ee 1 
)》 G， 5) ,7 大 DVR ) (9 ) 
宣 > 》 人 wiip Cu im. (9.13) 
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第 十 四 章 描述 的 自 编 码 吕 网络， 是 一 些 被 训练 成 把 输入 拷贝 到 输出 的 前 饥 网 
络 。 一 个 简单 的 例子 是 PCA 算法 ， 将 输入 z 找 贝 到 一 个 近似 的 重 构 值 >， 通过 冰 数 
杯 " Wz 来 实现 。 使 用 权重 矩阵 转 置 的 乘法 ， 就 像 PCA 算法 这 种 ， 在 一 般 的 自 编码 
器 中 是 很 常见 的 。 为 了 使 这 些 模 型 卷 积 化 ， 我 们 可 以 用 函 数 疡 来 实现 卷 积 运算 的 转 
置 。 假 定 我 们 有 和 Z 相同 形式 的 隐藏 单元 H， 并 且 我 们 定义 一 种 重 构 运 算 


R = 几 (K,H, 5). (9.14) 
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为 了 训练 自 编码 器 ， 我 们 会 得 到 关于 R 的 梯度 ， 表 示 为 一 个 张 量 E。 为 了 训练 
解码 器 ， 我 们 需要 获得 对 于 K 的 梯度 ， 这 通过 9(H, E, s) 来 得 到 。 为 了 训练 编码 需 ， 
我 们 需要 获得 对 于 H 的 梯度 ， 这 通过 c(K, E, s) 来 得 到 。 通 过 用 c 和 户 对 9 求 微分 
也 是 可 行 的 ， 但 这 些 运算 对 于 任何 标准 神经 网 络 上 的 反 向 传播 算法 来 说 都 是 不 需要 
的 。 

一 般 来 说 ， 在 卷 积 层 从 输入 到 输出 的 变换 中 我 们 不 仅仅 只 用 线性 运算 。 我 们 一 
般 也 会 在 进行 非 线性 运算 前 ， 对 每 个 输出 加 入 一 些 偶 置 项 。 这 样 就 产生 了 如 何在 偶 
置 项 中 共享 参数 的 问题 。 对 于 局 部 连接 层 ， 很 自然 地 对 每 个 单元 都 给 定 它 特 有 的 俩 
置 ， 对 于 平 铺 卷 积 ， 也 很 自然 地 用 与 核 一 样 的 平 铺 模式 来 共享 参数 。 对 于 卷 积 层 来 
说 ， 通 党 的 做 法 是 在 输出 的 每 一 个 通道 上 都 设置 一 个 俩 置 ， 这 个 侦 置 在 每 个 卷 积 
射 的 所 有 位 置 上 共享 。 然 而 ， 如 果 输 入 是 已 知 的 固定 大 小 , 也 可 以 在 输出 映射 的 每 个 
位 置 学 习 一 个 单独 的 俩 置 。 分 离 这 些 偏 置 可 能 会 稍稍 降低 模型 的 统计 效率 ， 但 同时 
也 人 允许 模型 来 校正 图 像 中 不 同位 置 的 统计 差异 。 例 如 ， 当 使 用 隐 含 的 零 填 充 时 ， 图 
像 边 缘 的 探测 单元 接收 到 较 少 的 输入 ， 因 此 需要 较 大 的 偏 置 。 
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Channe1l coordinates 


Spatial coordqinates 









































图 9.15: 卷 积 网 络 的 前 两 个 输出 通道 只 和 前 两 个 输入 通道 相连 ， 随 后 的 两 个 输出 通 
两 个 输入 通道 相连 。 























道上 只 和 随后 的 
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8 D C d el fs hx ii 
a b C dd _a b C dd _a 
a b a bs _a bs _a b a 
图 9.16: 局 部 连接 层 、 平 铺 卷 积 和 标准 卷 积 的 比较 。 当 使 用 相同 大 小 的 核 时 ， 这 三 种 方法 在 单元 之 
间 具 有 相同 的 连接 。 此 图 是 对 使 用 两 个 像素 宽 的 核 的 说 明 。 这 三 种 方法 之 间 的 区 别 在 于 它们 如 何 
共享 参数 。( 上 ) 局 部 连接 层 根 本 没有 共享 参数 。 我 们 对 每 个 连接 使 用 唯一 的 字母 标记 ， 来 表明 每 














个 连接 都 有 它 自 身 和 












































% 权 重 。( 中 ) 平 铺 卷 积 有 + 上 个 不 同 的 核 。 这 
具有 标记 为 “c” 和 “qd"” 的 边 。 每 当 我 们 在 输出 中 右 移 一 























我 们 说 明 上 = 2 的 情况 。 其 中 一 个 

















核 具 有 标记 为 “a” 和 “b” 的 边 ， 而 另 一 个 
个 像素 后 ， 我 们 使 用 一 个 不 同 的 核 。 这 意味 着 ， 











与 局 部 连接 层 类似 ， 输 出 中 的 相 邻 和 





元 具有 不 同 的 




















参数 。 与 局 部 连接 层 不 同 的 是 ,在 我 们 遍历 
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所 有 可 | 



































的 七 个 核 之 后 ， 我 们 循环 回 到 了 第 一 个 核 。 如 
果 两 个 输出 单元 间隔 七 个 步 长 的 倍数 ， 则 它们 共享 参数 。( 下 /) 传统 卷 积 等 








效 于 上 = 1 的 平 铺 卷 积 。 











只 有 一 个 核 ， 并 且 被 应 用 到 各 个 地 方 ， 我 们 在 图 上 
的 核 。 








它 
边 


表示 为 在 各 处 使 用 具有 标记 为 “a ”和 “b” 的 
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9.6 ”结构 化 输出 


卷 积 神经 网 络 可 以 用 于 输出 高 维 的 结构 化 对 象 ， 而 不 仅仅 是 预测 分 类 任务 的 类 
标签 或 回归 任务 的 实数 值 。 通 带 这 个 对 象 只 是 一 个 张 量 ， 由 标准 卷 积 层 产 生 。 例 如 ， 
模型 可 以 产生 张 量 S， 其 中 5; jx 是 网 络 的 输入 像素 (7 /) 属于 类 ;的 概率 。 这 允许 
模型 标记 图 像 中 的 每 个 像素 ， 并 绘制 沿 着 单个 对 象 轮廓 的 精确 掩 模 。 

经 党 出现 的 一 个 问题 是 输出 平面 可 能 比 输入 平面 要 小 ， 如 图 9.13 所 示 。 用 于 
对 图 像 中 单个 对 象 分 类 的 常用 结构 中 ， 网 络 空间 维 数 的 最 大 减少 来 源 于 使 用 大 步 
幅 的 池 化 层 。 为 了 产生 与 输入 大 小 相似 的 输出 映射 ， 我 们 可 以 避免 把 池 化 放 在 一 起 
(Jain et al， 2007)。 另 一 种 策略 是 单纯 地 产生 一 张 低 分 辩 率 的 标签 网 格 (Pinheiro 
and Collobert,，2014, 2015)。 最 后 ， 原 则 上 可 以 使 用 具有 单位 步 幅 的 池 化 操作 。 

对 图 像 逐 个 像素 标记 的 一 种 策略 是 先 产 生 图 像 标签 的 原始 猜测 ， 然 后 使 用 相 邻 
像素 之 间 的 交互 来 修正 该 原始 猜测 。 重 复 这 个 修正 步骤 数 次 对 应 于 在 每 一 步 使 用 相 
同 的 卷 积 , 该 卷 积 在 座 层 网 络 的 最 后 几 层 之 间 共 享 权重 (Jain et ol., 2007)。 这 使 得 在 
层 之 间 共 享 参数 的 连续 的 卷 积 层 所 执行 的 一 系列 运算 ， 形 成 了 一 种 特殊 的 循环 神经 
网 络 (Pinheiro and Collobert, 2014, 2015)。 图 9.17 给 出 了 这 样 一 个 循环 卷 积 网 络 的 
结构 。 

一 旦 对 每 个 像素 都 进行 了 预测 ， 我 们 就 可 以 使 用 各 种 方法 来 进一步 处 理 这 些 
了 预测， 以便 获得 图 像 在 区 域 上 的 分 割 (Briggman et wo/.，2009; Turaga et al.，2010; 
Farabet et xlL.,， 2013)。 一 般 的 想法 是 假设 大 片 相 连 的 像素 倾向 于 对 应 着 相同 的 标签 。 
图 模型 可 以 描述 相 邻 像素 间 的 概率 关系 。 或 者 ， 卷 积 网 络 可 以 被 训练 来 最 大 化 地 近 
似 图 模型 的 训练 目标 (Ning et o/L.,，2005; Thompson et al.，2014)。 
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图 9.17: 用 于 像素 标记 的 循环 卷 积 网 络 的 示例 。 输 入 是 图 像 张 量 X， 它 的 轴 对 应 图 像 的 行 、 列 和 通 
道 ( 红 ， 绿 ， 蓝 )。 目 标 是 输出 标签 张 量 立 ， 它 遵循 每 个 像素 的 标签 的 概率 分 布 。 该 张 量 的 轴 对 应 
图 像 的 行 、 列 和 不 同类 别 。 循 环 网 络 通过 使 用 立 的 先前 估计 作为 创建 新 估计 的 输入 ， 来 只 代 地 改 
善 其 估计 ， 而 不 是 单 次 输出 立 , 。 每 个 更 新 的 估计 使 用 相同 的 参数 ， 并 且 估 计 可 以 如 我 们 所 愿 地 被 
改善 任意 多 次 。 每 一 步 使 用 的 卷 积 核 张 量 U， 是 用 来 计算 给 定 输 入 岁 像 的 隐藏 表示 的 。 核 张 量 V 
用 于 产生 给 定 隐 藏 值 时 标签 的 估计 。 除 了 第 一 步 之 外 ， 核 W 都 对 立 进行 卷 积 来 提供 隐藏 层 的 输 
入 。 在 第 一 步 中 ， 此 项 由 零 代 替 。 因 为 每 一 步 使 用 相同 的 参数 ， 所 以 这 是 一 个 循环 网 络 的 例子 ， 如 
第 十 章 所 述 。 






























































































































































9.7 “数据 类 型 


卷 积 网 络 使 用 的 数据 通常 包含 多 个 通道 ， 每 个 通道 是 时 间 上 或 空间 中 某 一 点 的 
不 同 观测 量 。 参 考 表 9.1 来 了 解 具 有 不 同 维 数 和 通道 数 的 数据 类 型 的 例子 。 

卷 积 网 络 用 于 视频 的 例子 ， 可 以 参考 Chen et o/. (2010)。 

到 目前 为 上 ， 我 们 仅 讨 论 了 训练 和 测试 数据 中 的 每 个 样 例 都 有 相同 的 空间 维度 
的 情况 。 卷 积 网 络 的 一 个 优点 是 它们 还 可 以 处 理 具有 可 变 的 空间 太 度 的 输入 。 这 些 
类 型 的 输入 不 能 用 传统 的 基于 和 抢 阵 乘法 的 神经 网 络 来 表示 。 这 为 卷 积 网 络 的 使 用 提 
供 了 令 人 信服 的 理由 ， 即 使 当 计算 开销 和 过 拟 合 都 不 是 主要 问题 时 。 

例如 ， 考 虑 一 组 图 像 的 集合 ， 其 中 每 个 图 像 具 有 不 同 的 高 度 和 宽度 。 目 前 还 不 
清楚 如 何 用 固定 大 小 的 权重 矩阵 对 这 样 的 输入 进行 建 模 。 卷 积 就 可 以 很 直接 地 应 用 ; 
核 依据 输入 的 大 小 简单 地 被 使 用 不 同 次 ， 并 且 卷 积 运算 的 输出 也 相应 地 放 缩 。 卷 积 
可 以 被 视 为 矩阵 乘法 ; 相同 的 卷 积 核 为 每 种 大 小 的 输入 引入 了 一 个 不 同 大 小 的 双重 
分 块 循环 矩阵 。 有 时 ， 网 络 的 输出 允许 和 输入 一 样 具有 可 变 的 大 小 ， 例 如 如 果 我 们 
想 要 为 输入 的 每 个 像素 分 配 一 个 类 标签 。 在 这 种 情况 下 ， 不 需要 进一步 的 设计 工作 。 
在 其 他 情况 下 ， 网 络 必须 产生 一 些 固定 大 小 的 输出 ， 例 如， 如 果 我 们 想 要 为 整个 图 
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单 通道 


多 通道 





1 维 


音频 波形 : 卷 积 的 轴 对 应 于 时 间 。 
我 们 将 时 间 离 散 化 并 且 在 每 个 时 
间 点 测量 一 次 波形 的 振幅 。 


骨架 动画 (skeleton animation) 数 
据 : 计算 机 泻 染 的 3D 角色 动画 是 
通过 随时 间 调 整 “ 骨 架 ” 的 姿势 
而 生成 的 。 在 每 个 时 间 点 , 角色 的 
姿势 通过 骨架 中 的 每 个 关节 的 角 
度 来 描述 。 我 们 输入 到 卷 积 模型 
的 数据 的 每 个 通道 ， 表 示 一 个 关 
节 关 于 一 个 轴 的 角度 。 





2 维 


已 经 使 用 傅立叶 变换 预 处 理 过 的 
音频 数据 : 我 们 可 以 将 音频 波形 
变换 成 2 维 张 量 ， 不 同 的 行 对 应 
不 同 的 频率 ， 不 同 的 列 对 应 不 同 
的 时 间 点 。 在 时 间 轴 上 使 用 卷 积 
使 模型 等 效 于 在 时 间 上 移动 。 在 
频率 轴 上 使 用 卷 积 使 得 模型 等 效 
于 在 频率 上 移动 ， 这 使 得 在 不 同 
八 度 音 阶 中 播放 的 相同 旋律 产生 
相同 的 表示 ， 但 处 于 网 络 输出 中 
的 不 同 高 度 。 








彩色 图 像 数据 : 其 中 一 个 通道 包 
含 红 色 像 素 ， 另 一 个 包含 绿色 像 
素 , 最 后 一 个 包含 蓝 色 像素 。 在 图 
像 的 水 平 轴 和 坚 直 轴 上 移动 卷 积 
核 ， 赋 予 了 两 个 方向 上 平移 等 变 


性 。 











3 维 





体积 数据 : 这 种 数据 一 般 来 源 于 
医学 成 像 技术 ， 例 如 CT 扫描 等 。 




















彩色 视频 数据 : 其 中 一 个 轴 对 应 
着 时 间 ， 另 一 个 轴 对 应 着 视频 帧 
的 高 度 ， 最 后 一 个 对 应 着 视频 帧 


的 宽度 。 


: 用 于 卷 积 网 络 的 不 同 数据 格式 的 示例 。 
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像 指 定单 个 类 标签 。 在 这 种 情况 下 ， 我 们 必须 进行 一 些 额外 的 设计 步骤 ， 例 如 插入 
一 个 池 化 层 ， 池 化 区 域 的 大 小 要 与 输入 的 大 小 成 比例 ， 以 便 保持 固定 数量 的 池 化 输 
出 。 这 种 策略 的 一 些 例 子 可 以 参考 图 9.11 。 

注意 ， 使 用 卷 积 处 理 可 变 斥 二 的 输入 ， 仅 对 输入 是 因为 包含 对 同 种 事物 的 不 同 
量 的 观察 (时 间 上 不 同 长 度 的 记录 ， 空 间 上 不 同 宽度 的 观察 等 ) 而 导致 的 太 二 变化 这 
种 情况 才 有 意义 。 如 果 输 入 是 因为 它 可 以 选择 性 地 包括 不 同 种 类 的 观察 而 具有 可 变 
斥 寸 ， 使 用 卷 积 是 不 合理 的 。 例 如 ， 如 果 我 们 正在 处 理 大 学 申请 ， 并 且 我 们 的 特征 
包括 成 绩 等 级 和 标准 化 测试 分 数 ， 但 不 是 每 个 申请 人 都 进行 了 标准 化 测试 ， 则 使 用 
相同 的 权重 来 对 成 绩 特 征 和 测试 分 数 特征 进行 卷 积 是 没有 意义 的 。 














9.8 “高效 的 卷 积 算法 





现代 卷 积 网 络 的 应 用 通常 需要 包含 超过 百 万 个 单元 的 网 络 。 利 用 并 行 计算 资源 
的 强大 实现 是 很 关键 的 ， 如 第 12.1 节 中 所 描述 的 。 然 而 ， 在 很 多 情况 下 ， 也 可 以 通 
过 选择 适当 的 卷 积 算法 来 加 速 卷 积 。 

卷 积 等 效 于 使 用 传 立 叶 变换 将 输入 与 核 都 转换 到 频 域 、 执 行 两 个 信号 的 逐 点 相 
乘 ， 再 使 用 傅立叶 逆 变 换 转换 回 时 域 。 对 于 某 些 问题 的 规模 ， 这 种 算法 可 能 比 离散 
卷 积 的 朴素 实现 更 快 。 

当 一 个 4 维 的 核 可 以 表示 成 d 个 向 量 〈 每 一 维 一 个 向 量 ) 的 外 积 时 ， 该 核 被 称 
为 可 分 离 的 (separable )。 当 核 可 分 离 时 ， 朴 素 的 卷 积 是 低 效 的 。 它 等 价 于 组 合 4 个 
一 维 卷 积 ， 每 个 卷 积 使 用 这 些 向 量 中 的 一 个 。 组 合 方法 显著 快 于 使 用 它们 的 外 积 ; 
执行 一 个 d 维 的 卷 积 。 并 且 核 也 只 要 更 少 的 参数 来 表示 成 向 量 。 如 果 核 在 每 一 维 都 
是 vw 个 元 素 宽 ,， 那么 朴素 的 多 维 卷 积 需要 O(w4) 的 运行 时 间 和 人 参数 存储 空间 ， 而 可 
分 离 卷 积 只 需要 O(w x gd) 的 运行 时 间 和 参数 存储 空间 。 当 然 ， 并 不 是 每 个 卷 积 都 可 
以 表示 成 这 种 形式 。 

设计 更 快 的 执行 卷 积 或 近似 卷 积 ， 而 不 损害 模型 准确 性 的 方法 ， 是 一 个 活跃 的 
研究 领域 。 甚 至 仅 提高 前 向 传播 效率 的 技术 也 是 有 用 的 ， 因 为 在 商业 环境 中 ， 通 常 
部 署 网 络 比 训练 网 络 还 要 耗资 源 。 
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9.9 ”随机 或 无 监督 的 特征 





通常 ， 卷 积 网 络 训练 中 最 昂贵 的 部 分 是 学 习 特 征 。 输 出 层 的 计算 代价 通常 相对 
不 高 ， 因 为 在 通过 若干 层 池 化 之 后 作为 该 层 输 入 的 特征 的 数量 较 少 。 当 使 用 梯度 下 
降 执行 监督 训练 时 ， 每 步 梯 度 计算 需要 完整 地 运行 整个 网 络 的 前 向 传播 和 反 向 传播 。 
减少 卷 积 网 络 训练 成 本 的 一 种 方式 是 使 用 那些 不 是 由 监督 方式 训练 得 到 的 特征 。 

有 三 种 基本 策略 可 以 不 通过 监督 训练 而 得 到 卷 积 核 。 其 中 一 种 是 简单 地 随机 初 
台 化 它们 。 另 一 种 是 手动 设计 它们 ， 例 如 设置 每 个 核 在 一 个 特定 的 方向 或 太 度 来 检 
测 边缘 。 最 后 ,可 以 使 用 无 监督 的 标准 来 学 习 核 。 例 如 ，Coates et ol. (2011) 将 有 均 
值 聚 类 算法 应 用 于 小 图 像 块 ， 然 后 使 用 每 个 学 得 的 中 心 作 为 卷 积 核 。 第 三 部 分 描述 
了 更 多 的 无 监督 学 习 方法 。 使 用 无 监督 的 标准 来 学 习 特 征 ， 允 许 这 些 特征 的 确定 与 
位 于 网 络 结构 顶层 的 分 类 层 相 分 离 。 然 后 只 需 提 取 一 次 全 部 训练 集 的 特征 ， 构 造 用 
于 最 后 一 层 的 新 训练 集 。 假 设 最 后 一 层 类 似 逻 辑 回归 或 者 SVM， 那 么 学 习 最 后 一 层 
通常 是 凸 优化 问题 。 

随机 过 滤器 经 党 在 卷 积 网 络 中 表现 得 出 乎 意料 得 好 Jarrett et oL. (2009b); Saxe 
et al. (2011); Pinto et ol. (2011); Cox and Pinto (2011)。Saxe et ol. (2011) 说 明 , 由 
卷 积 和 随后 的 池 化 组 成 的 层 ， 当 赋予 随机 权重 时 ， 自 然 地 变 得 具有 频率 选择 性 和 平 
移 不 变性 。 他 们 认为 这 提供 了 一 种 廉价 的 方法 来 选择 卷 积 网 络 的 结构 : 首先 通过 仅 
训练 最 后 一 层 来 评 佑 几 个 卷 积 网 络 结构 的 性 能 ， 然 后 选择 最 好 的 结构 并 使 用 更 昂贵 
的 方法 来 训练 整个 网 络 。 

一 个 中 间 方 法 是 学 习 特 征 ， 但 是 使 用 那 种 不 需要 在 每 个 梯度 计算 步骤 中 都 进行 
完整 的 前 向 和 反 向 传播 的 方法 。 与 多 层 感 知 机 一 样 ， 我 们 使 用 贪心 逐 层 预 训 练 ， 单 
独 训 练 第 一 层 ， 然 后 一 次 性 地 从 第 一 层 提 取 所 有 特征 ， 之 后 用 那些 特征 单独 训练 
第 二 层 ， 以 此 类 推 。 第 八 章 描述 了 如 何 实现 监督 的 贪心 逐 层 预 训练 ， 第 三 部 分 将 此 
扩展 到 了 无 监督 的 范畴 。 卷 积 模型 的 贪心 逐 层 预 训 练 的 经 典 模型 是 卷 积 深度 信 念 网 
络 (Lee et al., 2009)。 卷 积 网 络 为 我 们 提供 了 相对 于 多 层 感 知 机 更 进一步 采用 预 训 
练 策略 的 机 会 。 并 非 一 次 训练 整个 卷 积 层 ， 我 们 可 以 训练 一 小 块 模型 ， 就 像 Coates 
ef ol/. (2011) 使 用 有 均值 做 的 那样 。 然 后 ,我 们 可 以 用 来 自 这 个 小 块 模型 的 参数 来 定 
义 卷 积 层 的 核 。 这 意味 着 使 用 无 监督 学 习 来 训练 卷 积 网 络 并 且 在 训练 的 过 程 中 完全 
不 使 用 卷 积 是 可 能 的 。 使 用 这 种 方法 ,我 们 可 以 训练 非常 大 的 模型 ,并且 只 在 推断 期 
间 产 生 高 计算 成 本 (Ranzato et al.,，2007ci; Jarrett et al.，2009b; Kavukcuoglu et al1.， 
2010; Coates et oL., 2013)。 这 种 方法 大 约 在 2007 到 2013 年 间 流 行 ， 当 时 标记 的 数 
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据 集 很 小 , 并 且 计算 能 力 有 限 。 如 今 , 大 多 数 卷 积 网 络 以 纯粹 监督 的 方式 训练 , 在 每 
次 训练 欠 代 中 使 用 通过 整个 网 络 的 完整 的 前 向 和 反 向 传播 。 

与 其 他 无 监督 预 训练 的 方法 一 样 ， 使 用 这 种 方法 的 一 些 好 处 仍然 难以 说 清 。 无 
监督 预 训练 可 以 提供 一 些 相对 于 监督 训练 的 正则 化 ， 或 者 它 可 以 简单 地 允许 我 们 训 
练 更 大 的 结构 ， 因 为 它 的 学 习 规 则 降低 了 计算 成 本 。 
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卷 积 网 络 也 许 是 生物 学 启发 人 工 智能 的 最 为 成 功 的 案例 。 虽 然 卷 积 网 络 也 经 过 
许多 其 他 领域 的 指导 ， 但 是 神经 网 络 的 一 些 关键 设计 原则 来 自 于 神经 科学 。 

卷 积 网 络 的 历史 始 于 神经 科学 实验 ， 远 早 于 相关 计算 模型 的 发 展 。 为 了 确定 关 
于 哺乳 动物 视觉 系统 如 何 工作 的 许多 最 基本 的 事实 ， 神 经 生理 学 家 David Hubel 和 
Torsten Wiesel 合作 多 年 (Hubel and Wiesel, 1959, 1962, 1968)。 他 们 的 成 就 最 终 获 
得 了 详 贝 尔 奖 。 他 们 的 发 现 对 当代 深度 学 习 模型 有 最 大 影响 的 是 基于 记录 猫 的 单个 
神经 元 的 活动 。 他 们 观察 了 猫 的 脑 内 神经 元 如 何 啊 应 投影 在 猫 前 面 屏 幕 上 精确 位 置 
的 图 像 。 他 们 的 伟大 发 现 是 ， 处 于 视觉 系统 较为 前 面 的 神经 元 对 非常 特定 的 光 模 式 
(例如 精确 定向 的 条 纹 ) 反应 最 强烈 ， 但 对 其 他 模式 几乎 完全 没有 反应 。 

他 们 的 工作 有 助 于 表征 大 脑 功能 的 许多 方面 ， 这 些 方面 超出 了 本 书 的 范围 。 从 
深度 学 习 的 角度 来 看 ， 我 们 可 以 专注 于 简化 的 、 草 岁 形 式 的 大 脑 功能 视图 。 

在 这 个 简化 的 视图 中 ， 我 们 关注 被 称 为 V1 的 大 脑 的 一 部 分 ， 也 称 为 初级 视觉 
皮层 (Primary visual cortex )。V1 是 大 脑 对 视觉 输入 开始 执行 显著 高 级 处 理 的 第 一 
个 区 域 。 在 该 草图 视图 中 ， 岁 像 是 由 光 到 达 眼 睛 并 刺激 视网膜 〈 眼 睛 后 部 的 光敏 组 
织 ) 形成 的 。 视 网 膜 中 的 神经 元 对 图 像 执 行 一 些 简 单 的 预 处 理 ， 但 是 基本 不 改变 它 
被 表示 的 方式 。 然 后 图 像 通过 视神经 和 称 为 外 侧 膝 状 核 的 脑 部 区 域 。 这 些 解剖 区 域 
的 主要 作用 是 仅仅 将 信号 从 眼睛 传递 到 位 于 头 后 部 的 V1。 

卷 积 网 络 层 被 设计 为 描述 Vl 的 三 个 性 质 : 





























1. V1 可 以 进行 空间 映射 。 它 实际 上 具有 二 维 结构 来 反映 视网膜 中 的 图 像 结 构 。 例 
如 ， 到 达 视 网 膜 下 半 部 的 光 仅 影响 V1 相应 的 一 半 。 卷 积 网 络 通过 用 二 维 映射 
定义 特征 的 方式 来 描述 该 特性 。 


2. V1 包含 许多 简单 细胞 ( simple cell )。 简 单 细 胞 的 活动 在 某 种 程度 上 可 以 概括 
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为 在 一 个 小 的 空间 位 置 感受 野 内 的 图 像 的 线性 函数 。 卷 积 网 络 的 检测 天 单元 被 
设计 为 模拟 简单 细胞 的 这 些 性 质 。 


. V1 还 包括 许多 复杂 细胞 (complex cell )。 这 些 细胞 响应 类 似 于 由 简单 细胞 检 
测 的 那些 特征 ， 但 是 复杂 细胞 对 于 特征 的 位 置 微小 偏 移 具 有 不 变性 。 这 启发 
了 卷 积 网 络 的 池 化 单元 。 复 杂 细 胞 对 于 照明 中 的 一 些 变化 也 是 不 变 的， 不 能 简 
单 地 通过 在 空间 位 置 上 池 化 来 刻画 。 这 些 不 变性 激发 了 卷 积 网 络 中 的 一 些 跨 通 
道 池 化 策略 ， 例 如 maxonut 单元 (Goodfellow et olL., 2013b)。 








CD 




















虽然 我 们 最 了 解 V1， 但 是 一 般 认 为 相同 的 基本 原理 也 适用 于 视觉 系统 的 其 他 区 
域 。 在 我 们 视觉 系 统 的 草图 视图 中 ， 当 我 们 逐渐 深入 大 脑 时 ， 遵 循 池 化 的 基本 探测 
策略 被 反复 执行 。 当 我 们 穿 过 大 脑 的 多 个 解剖 层 时 ， 我 们 最 终 找 到 了 响应 一 些 特定 
概念 的 细胞 ， 并 且 这 些 细胞 对 输入 的 很 多 种 变换 都 具有 不 变性 。 这 些 细胞 被 昵称 为 
“祖母 细胞 ” 这 个 想法 是 一 个 人 可 能 有 一 个 神经 元 ， 当 看 到 他 祖母 的 照片 时 该 神 
经 元 被 激活 ， 无 论 祖 母 是 出 现在 照片 的 左边 或 右边 ， 无 论 照 片 是 她 的 脸 部 的 特写 镜 
头 还 是 她 的 全 身 照 ， 也 无 论 她 处 在 光亮 还 是 黑暗 中 ， 等 等 。 

这 些 祖母 细胞 已 经 被 证 明确 实 存 在 于 人 脑 中 ， 在 一 个 被 称 为 内 侧 矣 叶 的 区 域 
(Quiroga et alL., 2005)。 研 究 人 员 测 试 了 单个 神经 元 是 否 会 响应 名 人 的 照片 。 他 们 发 
现 了 后 来 被 称 为 “Halle Berry 神经 元 ”的 神经 元 : 由 Halle Berry 的 概念 激活 的 单 
个 神经 元 。 当 一 个 人 看 到 Halle Berry 的 照片 ，Halle Berry 的 图 画 ， 甚 至 包含 单词 
“Halle Berry” 的 文本 时 ， 这 个 神经 元 会 触发 。 当 然 , 这 与 Halle Berry 本 人 无 关 ; 其 
他 神经 元 会 对 Bill Clinton，jJennifer Aniston 等 的 出 现 做 出 响应 。 

这 些 内 侧 杜 叶 神 经 元 比 现代 卷 积 网 络 更 通用 一 些 ， 这 些 网 络 在 读 取 名 称 时 不 会 
自动 联想 到 识别 人 或 对 象 。 与 卷 积 网 络 的 最 后 一 层 在 特征 上 最 接近 的 类 比 是 称 为 里 
下 皮质 〈IT ) 的 脑 区 。 当 查看 一 个 对 象 时 ， 信 息 从 视网膜 经 LGN 流 到 V1， 然 后 到 
V2, V4, 之 后 是 IT。 这 发 生 在 敬 见 对 象 的 前 100ms 内 。 如 果 人 允许 一 个 人 继续 观察 对 
象 更 多 的 时 间 ， 那 么 信息 将 开始 回流 ， 因 为 大 脑 使 用 自 上 而 下 的 反馈 来 更 新 较 低 级 
脑 区 中 的 激活 。 然 而 ， 如 果 我 们 打 断 人 的 注视 ， 并 且 只 观察 前 100ms 内 的 大 多 数 前 
向 激活 导致 的 放电 率 ， 那 么 IT 被 证 明 与 卷 积 网 络 非常 相似 。 卷 积 网 络 可 以 预测 IT 
放电 率 ， 并 且 在 执行 对 象 识别 任务 时 与 人 类 《时间 有 限 的 情况 ) 非常 类 似 (DiCarlo， 
2013)。 

话 虽 如 此 ， 卷 积 网 络 和 哺乳 动物 的 视觉 系统 之 间 还 是 有 许多 区 别 。 这 些 区 别 有 
一 些 是 计算 神经 科学 家 所 熟知 的 , 但 超出 了 本 书 的 范围 。 还 有 一 些 区 别 尚 未 知晓 ，， 
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为 关于 哺乳 动物 视觉 系统 如 何 工作 的 许多 基本 问题 仍 未 得 到 回答 。 简 要 列表 如 下 : 





e。 人 眼 大 部 分 是 非常 低 的 分 辨 率 ， 除 了 一 个 被 称 为 中 央 止 (fovea ) 的 小 块 。 中 
央 止 仅 观 察 在 手臂 长 度 距 离 内 一 块 拇指 大 小 的 区 域 。 虽 然 我 们 觉得 我 们 可 以 看 
到 高 分 辩 率 的 整个 场景 ， 但 这 是 由 我 们 的 大 脑 的 潜意识 部 分 创建 的 错觉 ， 因 为 
它 颖 合 了 我 们 将 见 的 大 干 个 小 区 域 。 大 多 数 卷 积 网 络 实际 上 接收 大 的 全 分 辩 率 
的 照片 作为 输入 。 人 类 大 脑 控制 几 次 眼 动 ， 称 为 扫 视 (saccade )， 以 静 见 场景 
中 最 显眼 的 或 任务 相关 的 部 分 。 将 类 似 的 注意 力 机 制 融和 人 深度 学 习 模 型 是 一 
个 活跃 的 研究 方向 。 在 深度 学 习 的 背景 下 ， 注 意 力 机 制 对 于 自然 语言 处 理 是 最 
成 功 的 ， 参 考 第 12.4.5.1 节 。 研 究 者 已 经 研发 了 几 种 具有 视觉 机 制 的 视觉 模型 ， 
但 到 目前 为 止 还 没有 成 为 主导 方法 (Larochelle and Hinton, 2010; Denil et al/， 
2012)。 


人 类 视觉 系统 集成 了 许多 其 他 感 党 ， 例 如 听觉 ， 以 及 像 我 们 的 心情 和 想法 一 样 
的 因素 。 卷 积 网 络 迄 今 为 止 纯粹 是 视觉 的 。 


人 类 视觉 系统 不 仅仅 用 于 识别 对 象 。 它 能 够 理解 整个 场景 ， 包 括 许 多 对 象 和 对 
象 之 间 的 关系 ， 以 及 处 理 我 们 的 身体 与 世界 交互 所 需 的 丰富 的 三 维 几何 信息 。 
卷 积 网 络 已 经 应 用 于 这 些 问 题 中 的 一 些 ， 但 是 这 些 应 用 还 处 于 起 步 阶段 。 


即使 像 V1 这 样 简单 的 大 脑 区 域 也 受到 来 自 较 高 级 别 的 反馈 的 严重 影响 。 反 馈 
已 经 在 神经 网 络 模型 中 被 广泛 地 探索 , 但 还 没有 被 证 明 提 供 了 引 人 注 目的 改进 。 


虽然 前 馈 IT 放电 频率 刻画 了 与 卷 积 网 络 特征 很 多 相同 的 信息 ， 但 是 仍 不 清楚 
中 间 计 算 的 相似 程度 。 大 脑 可 能 使 用 非常 不 同 的 激活 和 池 化 函数 。 单 个 神经 元 
的 激活 可 能 不 能 用 单个 线性 过 滤器 的 响应 来 很 好 地 表征 。 最 近 的 V1 模型 涉及 
对 每 个 神经 元 的 多 个 二 次 过 滤器 (Rust et 咱 , 2005)。 事 实 上 ， 我 们 的 “简单 细 
胞 ”和 “复杂 细胞 ”的 草 图 图 片 可 能 并 没有 区 别 ; 简单 细胞 和 复杂 细胞 可 能 是 
相同 种 类 的 细胞 ， 但 是 它们 的 “参数 ”使 得 它们 能 够 实现 从 我 们 所 说 的 “简单 ” 
到 “复杂 ”的 连续 的 行为 。 






































还 值得 一 提 的 是 ， 神 经 科学 很 少 告诉 我 们 该 如 何 训练 卷 积 网 络 。 具 有 跨 多 个 空 
间 位 置 的 参数 共享 的 模型 结构 ， 可 以 追溯 到 早期 关于 视觉 的 联结 主义 模型 (Marr 
and Poggio, 1976)， 但 是 这 些 模 型 没有 使 用 现代 的 反 回 传播 算法 和 梯度 下 降 。 例 如 ， 
(Fukushima, 1980) 结合 了 现代 卷 积 网 络 的 大 多 数 模 型 结构 设计 元 素 ， 但 依赖 于 层次 
化 的 无 监督 聚 类 算法 。 
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Lang and Hinton (1988) 引入 反 向 传播 来 训练 时 延 神经 网 络 〈time delay neural 
network, TDNN )。 使 用 当代 术语 来 说 ，TDNN 是 用 于 时 间 序 列 的 一 维 卷 积 网 络 。 用 
于 这 些 模型 的 反 向 传播 不 受 任 何 神经 科学 观察 的 启发 ， 并 且 被 一 些 人 认为 是 生物 不 
可 信 的 。 在 基于 使 用 反 向 传播 训练 的 TDNN 成 功 之 后 ，LeCun et ol. (1989) 通过 将 
相同 的 训练 算法 应 用 于 图 像 的 2 维 卷 积 来 发 展现 代 卷 积 网 络 。 

到 目前 为 止 ， 我 们 已 经 描述 了 简单 细胞 对 于 某 些 特征 是 如 何 呈 现 粗略 的 线性 和 
选择 性 ， 复 杂 细 胞 是 如 何 更 加 的 非 线 性 ， 并 且 对 于 这 些 简 单 细胞 特征 的 某 些 变换 具 
有 不 变性 ， 以 及 在 选择 性 和 不 变性 之 间 交 替 放置 的 层 可 以 产生 对 非常 特定 现象 的 祖 
母 细 胞 。 我 们 还 没有 精确 描述 这 些 单个 细胞 检测 到 了 什么 。 在 深度 非 线 性 网 络 中 ， 
可 能 难以 理解 单个 细胞 的 功能 。 第 一 层 中 的 简单 细胞 相对 更 容易 分 析 ， 因 为 它们 的 
响应 由 线性 函数 驱动 。 在 人 工 神 经 网 络 中 ， 我 们 可 以 直接 显示 卷 积 核 的 图 像 ， 来 碍 
看 卷 积 层 的 相应 通道 是 如 何 响应 的 。 在 生物 神经 网 络 中 ， 我 们 不 能 访问 权重 本 喘 。 
相反 ， 我们 在 神经 元 自身 中 放置 一 个 电极 ， 在 动物 视网膜 前 显示 几 个 白 噪 声 图 像样 
本 ， 并 记录 这 些 样本 中 的 每 一 个 是 如 何 导致 神经 元 激活 的 。 然 后 ， 我 们 可 以 对 这 些 
响应 拟 合 线性 模型 ， 以 获得 近似 的 神经 元 权重 。 这 种 方法 被 称 为 反 向 相关 (reverse 
correlation ) (Ringach and Shapley,， 2004)。 

反 向 相关 癌 我 们 表明 , 大 多 数 的 V1 细胞 具有 由 Gabor 函数 ( Gabor function ) 
所 撒 述 的 权重 。Gabor 冰 数 撒 述 在 图 像 中 的 2 维 点 处 的 权重 。 我 们 可 以 认为 图 像 是 
2 维 坐标 T(z,y) 的 函数 。 类 似 地 ， 我 们 可 以 认为 简单 细胞 是 在 图 像 中 的 一 组 位 置 采 
样 ， 这 组 位 置 由 一 组 z 坐标 入 和 一 组 y 坐标 立 来 定义 ,并且 使 用 的 权重 w(z,y) 也 
是 位 置 的 郴 数 。 从 这 个 观点 来 看 ， 简 单 细胞 对 于 图 像 的 响应 由 下 式 给 出 

s(7) = 广 》 友 ( 矶 加 0 击 : (9.15) 
ZEX WEY 


特别 地 ，w(z,y) 采用 Gabor 函数 的 形式 : 


(00 Bo D 访 和 rzogo7) = 一 aexp( 一 Bo 一 Bo cos(jo 十 风 ， (9.16) 



































2 =(Z 一 2Zo)cos(T) 十 (一 %)sin(7) (9.17) 


办 = 一 (zZ 一 2o)sin(r) 十 (一 yo)cos(7)， (9.18) 


这 里 a, 6,6， 妃 和 zoyo,7 都 是 控制 Gabor 冰 数 性 质 的 参数 。 图 9.18 给 出 
了 Gabor 函数 在 不 同 参数 集 上 的 一 些 例子 。 





绩 国 国 国 回国 本 蛤 
国 国 回国 国医 医 枚 
四 四 加 四 国医 医 配 
四 四 四 因 因 医 加 四 
国 国 加 图 因 丰 四 右 
图 网 图 图 固 罗 万 可 
较 轩 图 国 四 区 罗 要 
图 图 图 加 四 思 轨 攀 


9.10 卷 积 网 络 的 神经 科学 基础 


315 
















图 9.18: 具有 各 种 参数 设置 的 Gabor 函数 。 白 色 表示 绝对 值 大 的 正 权 重 ， 黑 色 表 示 绝 对 值 大 的 负 
权重 ， 背 景 灰色 对 应 于 零 权重 。( 左 ) 控制 坐标 系 的 参数 具有 不 同 值 的 Gabor 郴 数 ， 这 些 参数 包括 : 
zZ0、% 和 7Y。 在 该 网 格 中 的 每 个 Gabor 本 数 被 赋予 和 它 在 网 格 中 的 位 置 成 比例 的 zo 和 yw 的 值 ， 
并 且 7 被 选择 为 使 得 每 个 Gabor 过 滤器 对 从 网 格 中 心 重 射出 的 方向 非常 敏感 。 对 于 其 他 两 幅 图 ， 
Z0、%yo 和 7 国定 为 零 。( 中 ) 具有 不 同 高 斯 比例 参数 6 和 By 的 Gabor 琐 数 。 当 我 们 从 左 到 右 通 
过 网 格 时 ，Gabor 函数 被 设置 为 增加 宽度 (减少 Bo ); 当 我 们 从 上 到 下 通过 网 格 时 ，Gabor 函数 被 
设置 为 为 增加 高 度 (减少 By )。 对 于 其 他 两 幅 图 ,6 值 固定 为 图 像 宽 度 的 1.5 倍 。( 右 ) 具有 不 同 的 
正弦 参数 上 和 风 的 Gabor 机 数 。 当 我 们 从 上 到 下 移动 时 ,7 增加; 当 我 们 从 左 到 右 移 动 时 ，d 增 
加 。 对 于 其 他 两 幅 图 ，% 固定 为 0，y 固定 为 图 像 宽度 的 5 倍 。 









































参数 zo,yo 和 r 定义 坐标 系 。 我 们 平移 和 旋转 xz 和 yy 来 得 到 zx 和 办。 具体 地 ， 
简单 细胞 会 响应 以 点 (zo,yo) 为 中 心 的 图 像 特征 ， 并 且 当 我 们 沿 着 从 水 平方 向 旋转 7 
弧度 的 线 移动 时 ， 简 单 细 胞 将 响应 亮度 的 变化 。 

作为 愉 和 YY 的 困 数 ， 因 数 ww 会 啊 应 当 我 们 沿 着 移动 时 的 亮度 变化 。 它 有 两 
个 重要 的 因子 : 一 个 是 高 斯 王 数 ， 另 一 个 是 余弦 冰 数 。 

高 斯 因子 wexp(-Bsz02 - By2) 可 以 被 视 为 闽 值 项 ， 用 于 保证 简单 细胞 仅 对 接 
近 z 和 W 都 为 零点 处 的 值 响 应 ， 换 句 话说， 接近 细胞 接受 域 的 中 心 。 尺 度 因 子 a 
调整 简单 细胞 响应 的 总 的 量 级 ， 而 6。 和 B 控制 接受 域 消退 的 速度 。 

余弦 因子 cos(jz' 十 内 控制 简单 细胞 如 何 响应 延 “: 轴 的 亮度 改变 。 人 参数 上 控制 
余 纺 的 频率 ，4 控制 它 的 相位 偏 移 。 

合 在 一 起 ， 简 单 细 胞 的 这 个 草图 视图 意味 着 ， 简 单 细 胞 对 在 特定 位 置 处 、 特 定 
方向 上 上、 特定 空间 频率 的 亮度 进行 啊 应 。 当 图 像 中 的 光波 与 细胞 的 权重 具有 相同 的 





相位 时 ， 简 单 细胞 是 最 兴奋 的 。 这 种 情况 发 生 在 当 图 像 亮 时 ， 它 的 权重 为 正 ， 而 图 
像 暗 时 ， 它 的 权重 为 负 。 当 光波 与 权重 完全 蜡 相 时 ， 简 单 细 胞 被 抑制 一 一 当 图 像 较 
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瞳 时 ， 它 的 权重 为 正 ; 较 亮 时 ， 它 的 权重 为 负 。 

复杂 细胞 的 草图 视图 是 它 计 算 包含 两 个 简单 细胞 响应 的 2 维 向 量 的 2 范 数 : 
cT) = Vso()2 + si1(7)2。 一 个 重要 的 特殊 情况 是 当 s: 和 so 具有 除 % 以 外 都 相同 的 
参数 , 并 且 少 被 设置 为 使 得 s: 与 so 相位 相差 四 分 之 一 周期 时 。 在 这 种 情况 下 ,so 和 
51 形成 象限 对 (quadrature pair )。 当 高 斯 重新 加 权 的 图 像 T(lz,y)exp( 一 Csz2 一 02) 
包含 具有 频率 人 在 方向 r 上 、 接 近 (zo,yo) 的 高 振幅 正弦 波 时 ,用 先前 方法 定义 的 
复杂 细胞 会 响应 ,并且 不 管 该 波 的 相位 偏 移 。 换 句 话说， 复杂 细胞 对 于 图 像 在 方向 7 
上 的 微小 变换 或 者 翻转 图 像 (用 白色 代替 黑色 ， 反 之 亦 然 ) 具有 不 变性 。 

神经 科学 和 机 器 学 习 之 间 最 显著 的 对 应 关系 ， 是 从 视觉 上 比较 机 融 学 习 模 型 学 
得 的 特征 与 使 用 V1 得 到 的 特征 。Olshausen and Field (1996) 说 明 ， 一 个 简单 的 无 
监督 学 习 算 法 ， 稀 玻 编 码 ， 学 习 的 特征 具有 与 简单 细胞 类 似 的 感受 野 。 从 那 时 起 ,我 
们 发 现 ， 当 应 用 于 自然 图 像 时 ， 极 其 多 样 的 统计 学 习 算 法 学 习 类 Gabor 函数 的 特征 。 
这 包括 大 多 数 深度 学 习 算 法 ， 它 们 在 其 第 一 层 中 学 习 这 些 特 征 。 图 9.19 给 出 了 一 些 
例子 。 因 为 如 此 众多 不 同 的 学 习 算 法 学 习 边 缘 检测 器 ， 所 以 很 难 仅 基于 学 习 算 法 学 
得 的 特征 ,来 断定 哪 一 个 特定 的 学 习 算 法 是 “正确 ”的 大 脑 模型 (虽然 ， 当 应 用 于 自 
然 图 像 时 ， 如 果 一 个 算法 不 能 学 得 某 种 检测 器 时 ， 它 能 够 作为 一 种 否定 标志 )。 这 些 
特征 是 自然 图 像 的 统计 结构 的 重要 部 分 ， 并 且 可 以 通过 许多 不 同 的 统计 建 模 方 法 来 
重新 获得 。 读 者 可 以 参考 (Hyvarinen et al!., 2009) 来 获得 自然 图 像 统 计 领 域 的 综述 。 
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图 9.19: 许多 机 器 学 习 算 法 在 应 用 于 自然 图 像 时 , 会 学 习 那 些 用 来 检测 边缘 或 边缘 的 特定 颜色 的 特 
征 。 这 些 特 征 检测 需 使 人 联想 到 已 知 存在 于 初级 视觉 皮层 中 的 Gabor 函数 。( 左 ) 通过 应 用 于 小 图 
像 块 的 无 监督 学 习 算法 〈 尖峰 和 平板 稀 疏 编码 ) 学 得 的 权重 。( 右 ) 由 完全 监督 的 卷 积 maxonut 网 
络 的 第 一 层 学 得 的 卷 积 核 。 相 邻 的 一 对 过 滤器 驱动 相同 的 maxonut 单元 。 
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卷 积 网 络 在 深度 学 习 的 历史 中 发 挥 了 重要 作用 。 它 们 是 将 研究 大 脑 获 得 的 深刻 
理解 成 功用 于 机 器 学 习 应 用 的 关键 例子 。 它 们 也 是 首 批 表 现 良好 的 深度 模型 之 一 ， 
远 远 早 于 任意 深度 模型 被 认为 是 可 行 之 前 。 卷 积 网 络 也 是 第 一 个 解决 重要 商业 应 用 
的 神经 网 络 ， 并 且 仍 然 处 于 当今 深度 学 习 商 业 应 用 的 前 沿 。 例 如 , 在 20 世纪 90 年 
代 ，AT&T 的 神经 网 络 研究 小 组 开发 了 一 个 用 于 读 取 支票 的 卷 积 网 络 (LeCun et al， 
1998c)。 到 90 年 代 未 ，NEC 部 署 的 这 个 系统 已 经 被 用 于 读 取 美国 10% 以 上 的 文 
票 。 后 来 ， 微 软 部 署 了 若干 个 基于 卷 积 网 络 的 OCR 和 手写 识别 系统 (Simard et al.， 
2003)。 关 于 卷 积 网 络 的 这 种 应 用 和 更 现代 应 用 的 更 多 细节 ， 参 考 第 十 二 章 。 读 者 可 
以 参考 (LeCun et olL., 2010) 了 解 2010 年 之 前 的 更 为 深入 的 卷 积 网 络 历史 。 

卷 积 网 络 也 被 用 作 在 许多 比赛 中 的 取胜 手段 。 当 前 对 深度 学 习 的 商业 兴趣 的 热 
度 始 于 Krizhevsky et ol. (2012a) 赢得 了 ImageNet 对 象 识 别 挑战 ， 但 是 在 那 之 前 ， 
卷 积 网 络 也 已 经 被 用 于 赢得 前 些 年 影响 较 小 的 其 他 机 器 学 习 和 计算 机 视觉 竞赛 了 。 

卷 积 网 络 是 第 一 批 能 使 用 反 向 传播 有 效 训 练 的 深度 网 络 之 一 。 现 在 仍 不 完全 清 
楚 为 什么 卷 积 网 络 在 一 般 的 反 向 传播 网 络 被 认为 已 经 失败 时 反而 成 功 了 。 这 可 能 可 
以 简单 地 归结 为 卷 积 网 络 比 全 连接 网 络 计算 效率 更 高 ， 因 此 使 用 它们 运行 多 个 实验 
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并 调整 它们 的 实现 和 超 参 数 更 容易 。 更 大 的 网 络 也 似乎 更 容易 训练 。 利 用 现代 硬件 ， 
大 型 全 连接 的 网 络 在 许多 任务 上 也 表现 得 很 合理 ， 即 使 使 用 过 去 那些 全 连接 网 络 被 
认为 不 能 工作 得 很 好 的 数据 集 和 当时 流行 的 激活 函数 时 ， 现 在 也 能 执行 得 很 好 。 心 
理 可 能 是 神经 网 络 成 功 的 主要 阻碍 〈 实 践 者 没有 期 望 神经 网 络 有 效 ， 所 以 他 们 没有 
认真 努力 地 使 用 神经 网 络 )。 无 论 如 何 ， 幸 运 的 是 卷 积 网 络 在 几 十 年 前 就 表现 良好 。 
在 许多 方面 ， 它 们 为 余下 的 深度 学 习 传 递 火 炬 ， 并 为 一 般 的 神经 网 络 被 接受 铺 平 了 
道路 。 

卷 积 网 络 提供 了 一 种 方法 来 特 化 神经 网 络 ， 使 其 能 够 处 理 具有 清楚 的 网 格 结构 
拓扑 的 数据 ， 以 及 将 这 样 的 模型 扩展 到 非常 大 的 规模 。 这 种 方法 在 二 维 图 像 拓 扑 上 
是 最 成 功 的 。 为 了 处 理 一 维 序列 数据 ， 我 们 接 下 来 转向 神经 网 络 框架 的 另 一 种 强大 
的 特 化 : 循环 神经 网 络 。 
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循环 神经 网 络 (recurrent neural network ) 或 RNN (Rumelhart et al.，1986c) 
是 一 类 用 于 处 理 序 列 数据 的 神经 网 络 。 就 像 卷 积 网 络 是 专门 用 于 处 理 网 格 化 数据 X 
(如 一 个 图 像 ) 的 神经 网 络 ， 循 环 神经 网 络 是 专门 用 于 处 理 序列 z),.….，,z(7 的 神 
经 网 络 。 正 如 卷 积 网 络 可 以 很 容易 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 ， 以 及 处 理 
大 小 可 变 的 图 像 ， 循 环 网 络 可 以 扩展 到 更 长 的 序列 〈 比 不 基于 序列 的 特 化 网 络 长 得 
多 )。 大 多 数 循环 网 络 也 能 处 理 可 变 长 度 的 序列 。 


从 多 层 网 络 出 发 到 循环 网 络 ， 我 们 需要 利用 上 世纪 80 年 代 机 器 学 习 和 统计 模 
型 早期 思想 的 优点 : 在 模型 的 不 同 部 分 共享 参数 。 参 数 共 享 使 得 模型 能 够 扩展 到 不 
同形 式 的 样本 〈 这 里 指 不 同 长 度 的 样本 ) 并 进行 泛 化 。 如 果 我 们 在 每 个 时 间 点 都 有 
一 个 单独 的 参数 ， 我 们 不 但 不 能 泛 化 到 训练 时 没有 见 过 序列 长 度 ， 也 不 能 在 时 间 上 
共享 不 同 序列 长 度 和 不 同位 置 的 统计 强度 。 当 信息 的 特定 部 分 会 在 序列 内 多 个 位 置 
出 现时 ， 这 样 的 共享 尤为 重要 。 例 如 ， 考 虑 这 两 句 话 :“I went to Nepal ip 2009” 和 
“In 2009, I went to Nepal” 如 果 我 们 让 一 个 机 器 学 习 模 型 读 取 这 两 个 句子 ， 并 提取 
叙述 者 去 Nepal 的 年 份 ， 无 论 “2009 年 ”是 作为 句子 的 第 六 个 单词 还 是 第 二 个 单词 出 
现 ， 我 们 都 希望 模型 能 认 出 “2009 年 ”作为 相关 资料 片段 。 假 设 我 们 要 训练 一 个 处 
理 固定 长 度 句 子 的 前 馈 网 络 。 传 统 的 全 连接 前 馈 网 络 会 给 每 个 输入 特征 分 配 一 个 单 
独 的 参数 , 所 以 需要 分 别 学习 句 子 每 个 位 置 的 所 有 语言 规则 。 相 比 之 下 , 循环 神经 网 
络 在 几 个 时 间 步 内 共享 相同 的 权重 ， 不 需要 分 别 学 习 句 子 每 个 位 置 的 所 有 语言 规则 。 

一 个 相关 的 想法 是 在 1 维 时 间 序 列 上 使 用 卷 积 。 这 种 卷 积 方法 是 时 延 神经 网 
络 的 基础 (Lang and Hinton, 1988; Waibel et ol., 1989; Lang et wo/.，1990)。 卷 积 操 作 
允许 网 络 跨 时 间 共 享 参 数 ， 但 是 浅 层 的 。 卷 积 的 输出 是 一 个 序列 ， 其 中 输出 中 的 每 
一 项 是 相 邻 几 项 输入 的 本 数 。 人 参数 共享 的 概念 体现 在 每 个 时 间 步 中 使 用 的 相同 卷 积 
核 。 循 环 神经 网 络 以 不 同 的 方式 共享 参数 。 输 出 的 每 一 项 是 前 一 项 的 函数 。 输 出 的 
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每 一 项 对 先前 的 输出 应 用 相同 的 更 新 规则 而 产生 。 这 种 循环 方式 导致 参数 通过 很 深 
的 计算 图 共享 。 

为 简单 起 见 ， 我 们 说 的 RNN 是 指 在 序列 上 的 操作 ， 并 且 该 序列 在 时 刻 二 (从 
1 到) 包含 向 量 zi9。 在 实际 情况 中 ,循环 网 络 通常 在 序列 的 小 批量 上 操作 ， 并 
且 小 批量 的 每 项 具有 不 同 序列 长 度 7。 我 们 省 略 了 小 批量 索引 来 简化 记号 。 此 外 ， 
时 间 步 索引 不 必 是 字面 上 现实 世界 中 流逝 的 时 间 。 有 时 ， 它 仅 表示 序列 中 的 位 置 。 
RNN 也 可 以 应 用 于 跨越 两 个 维度 的 空间 数据 ( 如 图 像 )。 当 应 用 于 涉及 时 间 的 数据 ， 
并 且 将 整个 序列 提供 给 网 络 之 前 就 能 观察 到 整个 序列 时 ， 该 网 络 可 具有 关于 时 间 向 
后 的 连接 。 

本 章 将 计算 图 的 思想 扩展 到 包括 循环 。 这 些 周期 代表 变量 自身 的 值 在 未 来 某 
一 时 间 步 对 自身 值 的 影响 。 这 样 的 计算 图 允许 我 们 定义 循环 神经 网 络 。 然 后 ， 我 们 
描述 许多 构建 、 训 练 和 使 用 循环 神经 网 络 的 不 同方 式 。 

本 章 将 简要 介绍 循环 神经 网 络 , 为 获取 更 多 详细 信息 , 我 们 建议 读者 参考 Graves 
(2012) 的 著作 。 





10.1 “展开 计算 图 


计算 图 是 形式 化 一 组 计算 结构 的 方式 ， 如 那些 涉及 将 输入 和 人 参数 映射 到 输出 和 
损失 的 计算 。 综 合 的 介绍 请 参考 第 6.5.1 节 。 本 节 ， 我 们 对 展开 ( unfolding ) 递归 或 
循环 计算 得 到 的 重复 结构 进行 解释 ， 这 些 重 复 结构 通常 对 应 于 一 个 事件 链 。 展开 
(unfolding ) 这 个 计算 图 将 导致 深度 网 络 结构 中 的 参数 共享 。 

例如 ， 考 虑 动态 系统 的 经 典 形式 : 


s0) = st;0)， (10.1) 





其 中 st 称 为 系统 的 状态 。 
s 在 时 刻写 的 定义 需要 参考 时 刻 寺 - 1 时 同样 的 定义 ， 因 此 式 (10.1) 是 循环 的 。 
对 有 限时 间 步 r,， 7 一 工 次 应 用 这 个 定义 可 以 展开 这 个 图 。 例 如 7 = 3， 我 们 对 

式 (10.1) 展开 ， 可 以 得 到 : 

s6) = jsC2); 0) (10.2) 
= jj(s0;6);9)， (10.3) 
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以 这 种 方式 重复 应 用 定义 ， 展 开 等 式 ， 就 能 得 到 不 涉及 循环 的 表达 。 现 在 我 们 
可 以 使 用 传统 的 有 向 无 环 计算 图 呈现 这 样 的 表达 。 
式 (10.1) 和 式 (10.3) 的 展开 计算 图 如 图 10.1 所 示 。 


RN 2 
SN 了 站 几 - Ne 


图 10.1: 将 式 (10.1) 描述 的 经 典 动态 系统 表示 为 展开 的 计算 图 。 每 个 节点 表示 在 某 个 时 刻 七 的 状 
态 ， 并 且 函 数 了 将 七 处 的 状态 映射 到 上 二 1 霸 处 的 状态 。 所 有 时 间 步 都 使 用 相同 的 参数 〈 用 于 参数 
化 地 的 相同 9 值 ) 
























































作为 另 一 个 例子 ， 让 我 们 考虑 由 外 部 信号 zt 驱动 的 动态 系统 ， 
st 一 F(s(D ztD;0)， (10.4) 


我 们 可 以 看 到 ， 当 前 状态 包含 了 整个 过 去 序列 的 信息 。 
循环 神经 网 络 可 以 通过 许多 不 同 的 方式 建立 。 就 像 几 乎 所 有 函数 都 可 以 被 认为 
是 前 馈 网 络 ， 本 质 上 任何 涉及 循环 的 函数 都 可 以 被 认为 是 一 个 循环 神经 网 络 。 


很 多 循环 神经 网 络 使 用 式 (10.5) 或 类 似 的 公式 定义 隐藏 单元 的 值 。 为 了 表明 状 
态 是 网 络 的 隐藏 单元 ， 我 们 使 用 变量 疡 代表 状态 重 写 式 (10.4) : 





jh = RD zc;0)， (10.5) 





如 图 10.2 所 示 ， 典 型 RNN 会 增加 额外 的 架构 特性 ， 如 读 取 状态 信息 声 进 行 预测 的 


输出 层 。 
SS Ps 
N / N / 
一 四 、\-- / 1 7 ~-- 
了 Unfold 


图 10.2: 没有 输出 的 循环 网 络 。 此 循环 网 络 只 处 理 来 自 输入 z 的 信息 ， 将 其 合并 到 经 过 时 间 向 前 
传播 的 状态 凡 。( 左 ) 回路 原理 图 。 黑 色 方 块 表 示 单 个 时 间 步 的 延迟 。( 右 ) 同一 网 络 被 视 为 展开 的 
计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实例 相关 联 。 
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当 训练 循环 网 络 根据 过 去 预测 未 来 时 ， 网 络 通常 要 学 会 使 用 内 % 作为 过 去 序列 
〈 直 到 上 ) 与 任务 相关 方面 的 有 损 摘 要 。 此 摘要 一 般 而 言 一 定 是 有 损 的 ， 因 为 其 映射 
任意 长 度 的 序列 (ztb, ztrD; zt ,az2,z0)) 到 一 固定 长 度 的 向 量 几 0) 。 根 据 不 
同 的 训练 准则 ， 摘 要 可 能 选择 性 地 精确 保留 过 去 序列 的 某 些 方面 。 例 如 ， 如 果 在 统 
计 语 言 建 模 中 使 用 的 RNN， 通 常 给 定 前 一 个 词 预测 下 一 个 词 ， 可 能 没有 必要 存储 时 
刻 志 前 输入 序列 中 的 所 有 信息 ; 而 仅仅 存储 足够 预测 句子 其 余部 分 的 信息 。 最 苛刻 
的 情况 是 我 们 要 求 凡 2 足够 丰富 ， 并 能 大 致 恢复 输入 序列 ， 如 自 编码 器 框架 (第 十 
四 章 )。 

式 (10.5) 可 以 用 两 种 不 同 的 方式 绘制 。 一 种 方法 是 为 可 能 在 模型 的 物理 实现 中 
存在 的 部 分 赋予 一 个 节点 ， 如 生物 神经 网 络 。 在 这 个 观点 下 ， 网 络 定义 了 实时 操作 
的 回路 ,如 图 10.2 的 左 侧 ， 其 当前 状态 可 以 影响 其 未 来 的 状态 。 在 本 章 中 , 我 们 使 用 
回路 图 的 黑色 方块 表明 在 时 刻 上 的 状态 到 时 刻 不 +1L 的 状态 单个 时 刻 延 迟 中 的 相互 作 
用 。 必 一 个 绘制 RNN 的 方法 是 展开 的 计算 图 , 其 中 每 一 个 组 件 由 许多 不 同 的 变量 表 
示 ， 每 个 时 间 步 一 个 变量 ， 表 示 在 该 时 间 点 组 件 的 状态 。 每 个 时 间 步 的 每 个 变量 绘 
制 为 计算 图 的 一 个 独立 节点 ， 如 图 10.2 的 右 侧 。 我 们 所 说 的 展开 是 将 左 图 中 的 回路 
映射 为 右 图 中 包含 重复 组 件 的 计算 图 的 操作 。 目 前 ， 展 开 图 的 大 小 取决 于 序列 长 度 。 

我 们 可 以 用 一 个 函数 g(9 代表 经 上 步 展 开 后 的 循环 : 












































(0 一 0G(z(D， 2 一 1 ， 2)， 2Z(2)， z0D) (10.6) 
FPC-D, zt0;6). (10.7) 


函数 9g4) 将 全 部 的 过 去 序列 (zt z(D zt2 2 xz) 作为 输入 来 生成 当前 状 
态 ， 但 是 展开 的 循环 架构 允许 我 们 将 9g@9 分 解 为 数 /的 重复 应 用 。 因 此 ， 展 开 过 
程 引 入 两 个 主要 优点 : 


1. 无 论 序列 的 长 度 ， 学 成 的 模型 始终 具有 相同 的 输入 大 小 ， 因 为 它 指定 的 是 从 一 
种 状态 到 另 一 种 状态 的 转移 ， 而 不 是 在 可 变 长 度 的 历史 状态 上 操作 。 


2. 我 们 可 以 在 每 个 时 间 步 使 用 相同 参数 的 相同 转移 函数 太 


这 两 个 因素 使 得 学 习 在 所 有 时 间 步 和 所 有 序列 长 度 上 操作 单一 的 模型 三 是 可 能 的 ， 
而 不 需要 在 所 有 可 能 时 间 步 学 习 独 立 的 模型 g%)。 学 习 单 一 的 共享 模型 允许 泛 化 到 
没有 见 过 的 序列 长 度 〈 没 有 出 现在 训练 集中 )， 并 且 佑 计 模 型 所 需 的 训练 样本 远 远 少 
于 不 带 参数 共享 的 模型 。 
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无 论 是 循环 图 和 展开 图 都 有 其 用 途 。 循 环 图 简洁 。 展 开 岁 能 够 明确 描述 其 中 的 
计算 流程 。 展 开 图 还 通过 显 式 的 信息 流动 路 径 帮 助 说 明 信 息 在 时 间 上 向 前 〈 计 算 输 
出 和 损失 ) 和 向 后 〈 计 算 梯 度 ) 的 思想 。 
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基于 第 10.1 节 中 的 图 展开 和 参数 共享 的 思想 ， 我 们 可 以 设计 各 种 循环 神经 网 络 。 
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图 10.3: 计算 循环 网 络 (将 z 值 的 输入 序列 映射 到 输出 值 o 的 对 应 序列 ) 训练 损失 的 计算 图 。 损 失 
厂 衡量 每 个 o 与 相应 的 训练 目标 y 的 距离 。 当 使 用 softmax 输出 时 ， 我 们 假设 o 是 未 归 一 化 的 
对 数 概率 。 损 失 元 内 部 计算 Y = softmax(o)， 并 将 其 与 目标 y 比较 。RNN 输 入 到 隐藏 的 连接 
权重 矩阵 习 参数 化 ， 隐 藏 到 隐藏 的 循环 连接 由 权重 矩阵 酌 参数 化 以 及 隐藏 到 输出 的 连接 由 权重 
矩阵 参数 化 。 式 (10.8) 定义 了 该 模型 中 的 前 向 传播 。( 左 ) 使 用 循环 连接 绘制 的 RNN 和 它 的 损 
失 。( 右 ) 同一 网 络 被 视 为 展开 的 计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 


































































































循环 神经 网 络 中 一 些 重要 的 设计 模式 包括 以 下 几 种 : 


1. 每 个 时 间 步 都 有 输出 ， 并 且 隐 藏 单元 之 间 有 循环 连接 的 循环 网 络 ， 如 图 10.3 所 
示 。 
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2. 每 个 时 间 步 都 产生 一 个 输出 ， 只 有 当前 时 刻 的 输出 到 下 个 时 刻 的 隐藏 单元 之 间 
有 循环 连接 的 循环 网 络 ， 如 图 10.4 所 示 。 


3. 隐藏 单元 之 间 存 在 循环 连接 ， 但 读 取 整个 序列 后 产生 单个 输出 的 循环 网 络 ， 如 
图 10.5 所 示 。 


图 10.3 是 非常 具有 代表 性 的 例子 ， 我 们 将 会 在 本 章 大 部 分 涉及 这 个 例子 。 


训 去 SN 14 全 
全 一 一 
Unfold 区 和 4 0 队 


图 10.4: 此 类 RNN 的 唯一 循环 是 从 输出 到 隐藏 层 的 反馈 连接 。 在 每 个 时 间 步 上， 输入 为 愉 ， 隐 藏 
层 激活 为 尹 9 , 输出 为 o0 ,目标 为 9 , 损失 为 工 鸭 。( 左 ) 回路 原理 图 。( 右 ) 展开 的 计算 图 。 这 样 
的 RNN 没有 图 10. 3 表示 的 RNN 那样 强大 〈 只 能 表示 更 小 的 函数 集合 )。 图 10.3 中 的 RNN 可 以 
选择 将 其 想 要 的 关于 过 去 的 任何 信息 放 入 隐藏 表示 疡 中 并 且 将 疡 传播 到 未 来 。 该 图 中 的 RNN 被 
训练 为 将 特定 输出 值 放 入 o 中 ,并且 o 是 允许 传播 到 未 来 的 唯一 信息 。 此 处 没有 从 疡 前 向 传播 的 
直接 连接 。 之 前 的 疡 仅 通过 产生 的 预测 间接 地 连接 到 当前 。o 通常 缺乏 过 去 的 重要 信息 ， 除 非 它 
非常 高 维 上 且 内 容 丰 富 。 这 使 得 该 图 中 的 RNN 不 那么 强大 , 但 是 它 更 容易 训练 ， 因 为 每 个 时 间 步 可 
以 与 其 他 时 间 步 分 离 训 练 ， 人 允许 训练 期 间 更 多 的 并 行 化 ， 如 第 10.2.1 节 所 述 。 
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任何 图 灵 可 计算 的 丽 数 都 可 以 通过 这 样 一 个 有 限 维 的 循环 网 络 计 算 ， 在 这 
个 意义 上 图 10.3 和 式 (10.8) 的 循环 神经 网 络 是 万 能 的 。RNN 经 过 若干 时 间 步 后 读 
取 输 出 ， 这 与 由 图 灵机 所 用 的 时 间 步 是 渐 近 线性 的 ， 与 输入 长 度 也 是 渐 近 线性 
的 (Siegelmann and Sontag, 1991; Siegelmann，1995; Siegelmann and Sontag，1995; 
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图 10.5: 关于 时 间 展 开 的 循环 神经 网 络 ， 在 序列 结束 时 具有 单个 输出 。 这 样 的 网 络 可 以 用 于 概括 序 
列 并 产生 用 于 进一步 处 理 的 国定 大 小 的 表示 。 在 结束 处 可 能 存在 目标 〈 如 此 处 所 示 )， 或 者 通过 更 
F 游 模块 的 反 向 传播 来 获得 输出 o(5 上 的 梯度 。 












































Hyotyniemi, 1996)。 由 图 灵机 计算 的 函数 是 离散 的 ， 所 以 这 些 结果 都 是 函数 的 具体 
实现 ， 而 不 是 近似 。RNN 作为 图 灵机 使 用 时 ， 需 要 一 个 二 进 制 序列 作为 输入 ， 其 输 
出 必须 离散 化 以 提供 二 进 制 输出 。 利 用 单个 有 限 大 小 的 特定 RNN 计算 在 此 设置 下 
的 所 有 函数 是 可 能 的 ( Siegelmann and Sontag (1995) 用 了 886 个 单元 )。 图 灵机 的 
“输入 ”是 要 计算 函数 的 详细 说 明 (specification)， 所 以 模拟 此 图 灵机 的 相同 网 络 足 
以 应 付 所 有 问题 。 用 于 证 明 的 理论 RNN 可 以 通过 激活 和 权重 ( 由 无 限 精 度 的 有 理 
数 表示 ) 来 模拟 无 限 堆栈 。 

现在 我 们 研究 图 10.3 中 RNN 的 前 向 传播 公式 。 这 个 图 没有 指定 隐藏 单元 的 激 
活 函 数 。 我 们 假设 使 用 双 曲 正切 激活 函数 。 此 外 ， 图 中 没有 明确 指定 何 种 形式 的 输 
出 和 损失 函数 。 我 们 假定 输出 是 离散 的 ， 如 用 于 预测 词 或 字符 的 RNN。 表 示 离 散 变 
量 的 常规 方式 是 把 输出 o 作为 每 个 离散 变量 可 能 值 的 非 标准 化 对 数 概率 。 然 后 ， 我 
们 可 以 应 用 softmax 函数 后 续 处 理 后 ， 获 得 标准 化 后 概率 的 输出 向 量 包 RNN 从 特 
定 的 初始 状态 大"o) 开始 前 向 传播 。 从 二 = 工 到 上 = 7 的 每 个 时 间 步 ， 我 们 应 用 以 下 
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更 新 方程 ; 
ab 一 D 十 TPR-D) 十 LUzG)， (10.8) 
ji = tanh(a(o))， (10.9) 
od = ec 十 VP， (10.10) 
人 9 = softmax(o(9)， (10.11) 





其 中 的 参数 的 偏 置 向 量 六 和 ec 连同 权重 抢 阵 、 灵 和 环 ， 分 别 对 应 于 输入 到 隐藏 、 
隐藏 到 输出 和 隐藏 到 隐藏 的 连接 。 这 个 循环 网 络 将 一 个 输入 序列 映射 到 相同 长 度 的 
输出 序列 。 与 > 序列 配对 的 y 的 总 损失 就 是 所 有 时 间 步 的 损失 之 和 。 例 如 ， 工 (0 为 
给 定 的 zi ,zt 后 y9) 的 负 对 数 似 然 ， 则 





也 ( 人 (fx 20 VD (10.12) 

三 二 (10.13) 
二 

三 一 人 10g 人 全 | 人 人] (10.14) 





其 中 puoau(ym | {z00,，,z(0}) 需要 读 取 模 型 输出 向 量 多 ) 中 对 应 于 y 的 项 。 
关于 各 个 参数 计算 这 个 损失 函数 的 梯度 是 计算 成 本 很 高 的 操作 。 梯 度 计算 涉及 执行 
一 次 前 向 传播 〈 如 在 图 10.3 展开 图 中 从 左 到 右 的 传播 )， 接 着 是 由 右 到 左 的 反 向 传 
播 。 运 行 时 间 是 O(r)， 并 且 不 能 通过 并 行 化 来 降低 ， 因 为 前 向 传播 图 是 固有 循序 的 ; 
每 个 时 间 步 只 能 一 前 一 后 地 计算 。 前 向 传播 中 的 各 个 状态 必须 保存 ， 直 到 它们 反 疝 
传播 中 被 再 次 使 用 ， 因 此 内 存 代 价 也 是 O(r)。 应 用 于 展开 图 且 代 价 为 O(r) 的 反 向 
传播 算法 称 为 通过 时 间 反 向 传播 (back-propagation through time, BPTT )， 将 在 
第 10.2.2 节 进一步 讨论 。 因 此 隐藏 单元 之 间 存 在 循环 的 网 络 非常 强大 但 训练 代价 也 
很 大 。 我 们 是 否 有 其 他 选择 呢 ? 














10.2.1 “导师 驱动 过 程 和 输出 循环 网 络 


仅 在 一 个 时 间 步 的 输出 和 下 一 个 时 间 步 的 隐藏 单元 间 存 在 循环 连接 的 网 络 〈 示 
于 图 10.4 ) 确实 没有 那么 强大 〈 因为 缺乏 隐藏 到 隐藏 的 循环 连接 ) 例如 ， 它 不 能 模 
拟 通用 图 灵机 。 因 为 这 个 网 络 缺 少 隐藏 到 隐藏 的 循环 ， 它 要 求 输出 单元 捕捉 用 于 预 
测 未 来 的 关于 过 去 的 所 有 信息 。 因 为 输出 单元 明确 地 训练 成 匹配 训练 集 的 目标 ， 它 
们 不 太 能 捕获 关于 过 去 输入 历史 的 必要 信息 ， 除 非 用 户 知道 如 何 描述 系统 的 全 部 状 
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态 ， 并 将 它 作 为 训练 目标 的 一 部 分 。 消 除 隐 藏 到 隐藏 循环 的 优点 在 于 ， 任 何 基 于 比 
较 时 刻 的 预测 和 时 刻 寺 的 训练 目标 的 损失 冰 数 中 的 所 有 时 间 步 都 解 簿 了 。 因 此 训 
练 可 以 并 行 化 ， 即 在 各 时 刻 二 分 别 计算 梯度 。 因 为 训练 集 提 供 输出 的 理想 值 ， 所 以 
没有 必要 先 计算 前 一 时 刻 的 和 输出。 

由 输出 反馈 到 模型 而 产生 循环 连接 的 模型 可 用 导师 驱动 过 程 (teacher forcing ) 
进行 训练 。 训 练 模型 时 ， 时 师 驱 动 过程 不 再 使 用 最 大 似 然 准 则 ， 而 在 时 刻 上 + 1 接收 
真实 值 yi) 作为 输入 。 我 们 可 以 通过 检查 两 个 时 间 步 的 序列 得 知 这 一 点 。 条 件 最 大 
似 然 准 则 是 





logp(y0 2 | zx) (10.15) 
二 和 全 人 区 全 全 (10.16) 


在 这 个 例子 中 ， 同 时 给 定 迄 今 为 止 的 z 序列 和 来 自 训练 集 的 前 一 y 值 ， 我 们 可 
以 看 到 在 时 刻 圭 = 2 时 ， 模 型 被 训练 为 最 大 化 %2) 的 条 件 概率 。 因 此 最 大 似 然 在 训 
练 时 指定 正确 反馈 ， 而 不 是 将 自己 的 输出 反馈 到 模型 。 如 岁 10.6 所 示 。 

我 们 使 用 导师 驱动 过 程 的 最 初 动 机 是 为 了 在 缺乏 隐藏 到 隐藏 连接 的 模型 中 避 
免 通 过 时 间 反 向 传播 。 只 要 模型 一 个 时 间 步 的 输出 与 下 一 时 间 步 计算 的 值 存 在 连接 ， 
导师 驱动 过 程 仍 然 可 以 应 用 到 这 些 存 在 隐藏 到 隐藏 连接 的 模型 。 然 而 ， 只 要 隐藏 单 
元 成 为 较 早 时 间 步 的 机 数 ，BPTT 算法 是 必要 的 。 因 此 训练 某 些 模型 时 要 同时 使 
用 导师 驱动 过 程 和 BPTT。 

如 果 之 后 网 络 在 开 环 (open-loop) 模式 下 使 用 ， 即 网 络 输出 〈 或 输出 分 布 的 样 
本 ) 反馈 作为 输入 ， 那 么 完全 使 用 导师 驱动 过 程 进行 训练 的 缺点 就 会 出 现 。 在 这 种 
情况 下 ， 训 练 期 间 该 网 络 看 到 的 输入 与 测试 时 看 到 的 会 有 很 大 的 不 同 。 减 轻 此 问题 
的 一 种 方法 是 同时 使 用 导师 驱动 过 程 和 自由 运行 的 输入 进行 训练 ， 例 如 在 展开 循环 
的 输出 到 输入 路 径 上 预测 几 个 步骤 的 正确 目标 值 。 通 过 这 种 方式 ， 网 络 可 以 学 会 考 
虑 在 训练 时 没有 接触 到 的 输入 条 件 〈 如 自由 运行 模式 下 ， 自 身 生 成 自身 )， 以 及 将 状 
态 映 射 回 使 网 络 几 步 之 后 生成 正确 输出 的 状态 。 另 外 一 种 方式 (Bengio et oj., 2015b) 
是 通过 随意 选择 生成 值 或 真实 的 数据 值 作 为 输入 以 减 小 训练 时 和 测试 时 看 到 的 输入 
之 间 的 差别 。 这 种 方法 利用 了 课程 学 习 策略 ， 逐 步 使 用 更 多 生成 值 作为 输入 。 
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图 10.6: 导师 驱动 过 程 的 示意 图 。 导 师 驱动 过 程 是 一 种 训练 技术 ,适用 于 输出 与 下 一 时 间 步 的 隐藏 
状态 存在 连接 的 RNN。( 左 ) 训练 时 ,我 们 将 训练 集中 正确 的 输出 y95 反馈 到 凡 f。( 右 ) 当 模型 
部 署 后 ， 真 正 的 输出 通常 是 未 知 的 。 在 这 种 情况 下 ， 我 们 用 模型 的 输出 o(5 近似 正确 的 输出 y ， 
反馈 回 模型 。 










































































10.2.2 ”计算 循环 神经 网 络 的 梯度 


计算 循环 神经 网 络 的 梯度 是 容易 的 。 我 们 可 以 简单 地 将 第 6.5.6 节 中 的 推广 反 向 
传播 算法 应 用 于 展开 的 计算 图 ， 而 不 需要 特殊 化 的 算法 。 由 反 向 传播 计算 得 到 的 梯 
度 ， 并 结合 任何 通用 的 基于 梯度 的 技术 就 可 以 训练 RNN。 

为 了 获得 BPTT 算法 行为 的 一 些 直观 理解 , 我 们 举例 说 明 如 何 通过 BPTT 计算 
上 述 RNN 公 式 〈 式 (10.8) 和 式 (10.12) ) 的 梯度 。 计 算 图 的 节点 包括 参数 世 凤 分,b 
和 ec， 以 及 以 苇 为 索引 的 节点 序列 z9b, Po 和 工 D0。 对 于 每 一 个 节点 N， 我 们 
需要 基于 N 后 面 的 节点 的 梯度 ,递归 地 计算 梯度 VNZ。 我 们 从 紧 接着 最 终 损 失 的 节 
点 开始 递归 : 





oO1 
D7D 


在 这 个 导数 中 ， 我 们 假设 输出 o9 作为 softmax 函数 的 参数 ， 我 们 可 以 从 softmax 


(10.17) 
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函数 可 以 获得 关于 输出 概率 的 向 量 入 我 们 也 假设 损失 是 迄今 为 止 给 定 了 输入 后 的 
真实 目标 y@9 的 负 对 数 似 然 。 对 于 所 有 交 +， 关 于 时 间 步 了 土 输 出 的 梯度 Voo 荆 如 下 : 


Dr 1010  a 
DO 309D 





(VD); 光 1 y( . (10.18) 


我 们 从 序列 的 未 尾 开始 ， 反 向 进行 计算 。 在 最 后 的 时 间 步 r, 几 7) 只 有 o0) 作为 后 续 
节点 ， 因 此 这 个 梯度 很 简单 : 


Vnhno) 卫 王 TVLo 厂 . (10.19) 


然后 ， 我 们 可 以 从 时 刻 = 7 一 1 到 4 = 工 反 向 迭代 ， 通 过 时 间 反 向 传播 梯度 ， 注 意 
MO(t < r) 同时 具有 of 和 Me+3) 两 个 后 续 节 点 。 因 此 ， 它 的 梯度 由 下 式 计算 


DDNT Do NT 
二 册 庆 二 (二 人 (5 本 0 (10.20) 
这 栈 T(YoeroD)diag(1 人 人 (10.21) 








其 中 diag( 1- (Me+D)2) 表示 包含 元 素 1 (10)2 的 对 角 撼 阵 。 这 是 关于 时 刻 1+ 1 
与 隐藏 单元 ;关联 的 双 曲 正切 的 Jacobian。 

一 旦 获得 了 计算 图 内 部 节点 的 梯度 ， 我 们 就 可 以 得 到 关于 参数 节点 的 梯度 。 因 
为 参数 在 许多 时 间 步 共享 ， 我 们 必须 在 表示 这 些 变量 的 微 积分 操作 时 遵 慎 对 待 。 我 
们 希望 实现 的 等 式 使 用 第 6.5.6 节 中 的 bprop 方法 计算 计算 图 中 单一 边 对 梯度 的 贡 
献 。 然 而 微 积 分 中 的 立 w 六 算 子 ,计算 三 对 于 /的 贡献 时 将 计算 图 中 的 所 有 边 都 考 
虑 进去 了 。 为 了 消除 这 种 歧义 ， 我 们 定义 只 在 硅 时 刻 使 用 的 虚拟 变量 全 (0) 作为 例 
的 副本 。 然 后 ， 我 们 可 以 使 用 Vwe 表示 权重 在 时 间 步 上 对 梯度 的 贡献 。 
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使 用 这 个 表示 ， 关 于 剩 下 参数 的 梯度 可 以 由 下 式 给 出 : 











人、T 
人 Le ) Vi 五 =>》 VD (10.22) 
志 志 
8T 2 
Vt= 王 | VaoF= 》 diag(1- (AN0) 7)VnoF， (10.23) 
蕊 
2 ( 襄 加 jjYro9 = (YooDRO ， (10.24) 
二 
Vwz= 二 Cn 日 (10.25) 
一 1a8& | 于 必 SS : 
-Za (=-( 六 交 克 南 公 汐 (10.26) 
多 记 过 pm ne (10.27) 
一 >》 diag(1 一 (VDZD)zt ， (10.28) 
-9 


因为 计算 图 中 定义 的 损失 的 任何 参数 都 不 是 训练 数据 zi5 的 父 节 点 ， 所 以 我 们 不 需 
要 计算 关于 它 的 梯度 。 


10.2.3 ”作为 有 向 图 模型 的 循环 网 络 


目前 为 止 ， 我 们 接触 的 循环 网 络 例子 中 损失 二 是 训练 目标 V5 和 输出 oO 之 
间 的 交叉 箭 。 与 前 馈 网 络 类 似 ， 原 则 上 循环 网 络 几 乎 可 以 使 用 任何 损失 。 但 必须 根 
据 任 务 来 选择 损失 。 如 前 饥 网 络 ， 我 们 通常 希望 将 RNN 的 输出 解释 为 一 个 概率 分 
布 ， 并 且 我 们 通常 使 用 与 分 布 相关 联 的 交叉 焙 来 定义 损失 。 均 方 误 差 是 与 单位 高 斯 
分 布 的 输出 相关 联 的 交叉 焙 损 失 ， 例 如 前 馈 网 络 中 所 使 用 的 。 

当 我 们 使 用 一 个 预测 性 对 数 似 然 的 训练 目标 ， 如 式 (10.12) ， 我 们 将 RNN 训练 
为 能 够 根据 之 前 的 输入 估计 下 一 个 序列 元 素 WX9 的 条 件 分 布 。 这 可 能 意味 着 ， 我 们 
最 大 化 对 数 似 然 














logp(y | zz)， (10.29) 
或 者 ， 如 果 模 型 包括 来 自 一 个 时 间 步 的 输出 到 下 一 个 时 间 步 的 连接 ， 


logp(yO) | Z0D)， 1 Tt)， VD)， 4 一 D). (10.30) 
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将 整个 序列 y 的 联合 分 布 分 解 为 一 系列 单 步 的 概率 预测 是 捕获 关于 整个 序列 完整 
联合 分 布 的 一 种 方法 。 当 我 们 不 把 过 去 的 y 值 反馈 给 下 一 步 作为 预测 的 条 件 时 ， 那 
么 有 向 图 模型 不 包含 任何 从 过 去 欠 ) 到 当前 Y9 的 边 。 在 这 种 情况 下 ， 和 输出 y 与 给 
定 的 z 序列 是 条 件 独立 的 。 当 我 们 反馈 真实 的 y 值 (不 是 它们 的 预测 值 ， 而 是 真正 
观测 到 或 生成 的 值 ) 给 网 络 时 ， 那 么 有 向 图 模型 包含 所 有 从 过 去 g%2 到 当前 Yi 的 


边 。 





图 10.7: 序列 yy2 ,yo 的 全 连接 图 模型 。 给 定 先前 的 值 ， 每 个 过 去 的 观察 值 VC 可 
以 影响 一 些 V5( > 人 的 条 件 分 布 。 当 序列 中 每 个 元 素 的 输入 和 参数 的 数目 越 来 越 多 ， 根 据 此 图 
直接 参数 化 图 模型 (如 式 (10.6) 中 ) 可 能 是 非常 低 效 的 。RNN 可 以 通过 高 效 的 参数 化 获得 相同 的 
全 连接 ， 如 图 10.8 所 示 。 



































举 一 个 简单 的 例子 ， 让 我 们 考虑 对 标量 随机 变量 序列 Y = {y0D,,.,yC)} 建 
模 的 RNN， 也 没有 额外 的 输入 x。 在 时 间 步 上 的 输入 仅仅 是 时 间 步 了 1 的 输出 。 
该 RNN 定义 了 关于 y 变量 的 有 向 图 模型 。 我 们 使 用 链 式 法 则 (用 于 条 件 概率 的 
式 (3.6) ) 参数 化 这 些 观察 值 的 联合 分 布 ; 





P(Y) = P(y 册 ,..,y()) 一 TTPgye9 | yyt 3 .ytD)， (10.31) 
友 1 





其 中 当 + 上 = 工时 竖 杠 右 侧 显然 为 空 。 因此, 根据 这 样 一 个 模型 , 一 组 值 {y0) ,VD} 
的 负 对 数 似 然 为 


五 三 光世 (10.32) 
志 
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其 中 
也 的 一 一 log P(y 风 = V | 从 寺 DVD)). (10.33) 
1 
SR 人 
< 个、 
(9J 1 
/ 


图 10.8: 在 RNN 图 模型 中 引入 状态 变量 ， 尽 管 它 是 输入 的 确定 性 函数 ， 但 它 有 助 于 我 们 根据 
式 (10.5) 获得 非常 高 效 的 参数 化 。 序列 中 的 每 个 阶段 (对 于 Mo5 和 %95 ) 使 用 相同 的 结构 ( 每 个 
节点 具有 相同 数量 的 输入 )， 并 且 可 以 与 其 他 阶段 共享 相同 的 参数 。 






































图 模型 中 的 边 表 示 哪 些 变量 直接 依赖 于 其 他 变量 。 许 多 图 模型 的 目标 是 省 略 不 
存在 强 相互 作 用 的 边 以 实现 统计 和 计算 的 效率 。 和 
即 图 模型 应 该 只 包含 从 fy 月 ,yt-D} 到 yG) 的 边 ， 而 不 是 包含 整个 过 去 历史 
的 边 。 然 而 ， 在 一 些 情 况 下 ， 我 们 认为 整个 过 去 的 输入 会 对 序列 的 下 一 个 元 素 有 一 
定 影 响 。 当 我 们 认为 yt 的 分 布 可 能 取决 于 遥远 过 去 (在 某 种 程度 ) 的 yo) 的 值 ， 且 
无 法 通过 y(-9) 捕获 y@) 的 影响 时 ，RNN 将 会 很 有 用 。 

解释 RNN 作为 图 模型 的 一 种 方法 是 将 RNN 视 为 定义 一 个 结构 为 完全 图 的 图 模 
型 ， 且 能 够 表示 任何 一 对 y 值 之 间 的 直接 联系 。 图 10.7 是 关于 y 值 且 具有 完全 图 结 
构 的 图 模型 。 该 RNN 完全 图 的 解释 基于 排除 并 忽略 模型 中 的 隐藏 单元 jn0) 。 


更 有 趣 的 是 ， 将 隐藏 单元 No) 视 为 随机 变量 ， 从 而 产生 RNN 的 图 模型 结构 1。 
在 图 模型 中 包括 隐藏 单元 预示 RNN 能 对 观测 的 联合 分 布 提供 非常 有 效 的 参数 化 。 
假设 我 们 用 表格 表示 法 来 表示 离散 值 上 任意 的 联合 分 布 ， 即 对 每 个 值 可 能 的 赋值 分 
配 一 个 单独 条 目的 数组 ， 该 条 目 表 示 发 生 该 赋值 的 概率 。 如 果 y 可 以 取 个 不 同 的 
值 ， 表 格 表示 法 将 有 O() 个 参数 。 对 比 RNN， 由 于 参数 共享 ，RNN 的 参数 数目 
为 O(1) 且 是 序列 长 度 的 函数 。 我 们 可 以 调节 RNN 的 参数 数量 来 控制 模型 容量 ， 但 
不 用 被 迫 与 序列 长 度 成 比例 。 式 (10.5) 展示 了 所 述 RNN 通过 循环 应 用 相同 的 函数 / 
以 及 在 每 个 时 间 步 的 相同 参数 8， 有 效 地 参数 化 的 变量 之 间 的 长 期 联系 。 图 10.8 说 


1 给 定 这 些 变量 的 父 变量 ， 其 条 件 分 布 是 确定 性 的 。 尽 管 设 计 具 有 这 样 确定 性 的 隐藏 单元 的 图 模型 是 很 少见 的 ， 但 
这 是 完全 合理 的 。 
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明了 这 个 图 模型 的 解释 。 在 图 模型 中 结合 1 节点 可 以 用 作 过 去 和 未 来 之 间 的 中 间 
量 ， 从 而 将 它们 解 斐 。 遥 远 过 去 的 变量 y29 可 以 通过 其 对 天 的 影响 来 影响 变量 y9 。 
该 图 的 结构 表明 可 以 在 时 间 步 使 用 相同 的 条 件 概 率 分 布 有 效 地 参数 化 模型 ， 并 且 当 
观察 到 全 部 变量 时 ， 可 以 高 效 地 评估 联合 分 配给 所 有 变量 的 概率 。 

即便 使 用 高 效 参 数 化 的 图 模型 ， 某 些 操 作 在 计算 上 仍然 具有 挑战 性 。 例 如 ， 难 
以 预测 序列 中 缺少 的 值 。 

循环 网 络 为 减少 的 参数 数目 付出 的 代价 是 优化 参数 可 能 变 得 困难 。 

在 循环 网 络 中 使 用 的 参数 共享 的 前 提 是 相同 参数 可 用 于 不 同时 间 步 的 假设 。 也 
就 是 说 ， 假 设 给 定时 刻 上 的 变量 后 ， 时 刻 上 +1 变 量 的 条 件 概 率 分 布 是 平稳 的 
(stationary )， 这 意味 着 之 前 的 时 间 步 与 下 个 时 间 步 之 间 的 关系 并 不 依赖 于 如 原则 
上 ， 可 以 使 用 二 作为 每 个 时 间 步 的 额外 输入 ， 并 让 学 习 需 在 发 现任 何 时 间 依 赖 性 的 
同时 ， 在 不 同时 间 步 之 间 尽 可 能 多 地 共享 。 相 比 在 每 个 土 使 用 不 同 的 条 件 概率 分 布 
已 经 好 很 多 了 ， 但 网 络 将 必须 在 面 对 新 二 时 进行 推 斯 。 

为 了 完整 描述 将 RNN 作为 图 模型 的 观点 ,我 们 必须 摘 述 如 何 从 模型 采样 。 我们 
需要 执行 的 主要 操作 是 简单 地 从 每 一 时 间 步 的 条 件 分 布 采样 。 然 而 ， 这 会 导致 额外 
的 复杂 性 。RNN 必须 有 某 种 机 制 来 确定 序列 的 长 度 。 这 可 以 通过 多 种 方式 实现 。 

在 当 输出 是 从 词汇 表 获 取 的 符号 的 情况 下 ， 我 们 可 以 添加 一 个 对 应 于 序列 末端 
的 特殊 符号 (Schmidhuber, 2012)。 当 产生 该 符号 时 ， 采 样 过 程 停止 。 在 训练 集中 ， 
我 们 将 该 符号 作为 序列 的 一 个 额外 成 员 ， 即 紧 跟 每 个 训练 样本 zt") 之 后 。 

另 一 种 选择 是 在 模型 中 引入 一 个 额外 的 Bernoulli 输出 ， 表 示 在 每 个 时 间 步 决定 
继续 生成 或 停止 生成 。 相 比 向 词汇 表 增 加 一 个 额外 符号 ， 这 种 方法 更 普遍 ， 因 为 它 
适用 于 任何 RNN， 而 不 仅仅 是 输出 符号 序列 的 RNN。 例 如 ， 它 可 以 应 用 于 一 个 产 
生 实 数 序列 的 RNN。 新 的 输出 单元 通常 使 用 sigmoid 单元 ， 并 通过 交叉 彤 训练 。 在 
这 种 方法 中 ，sigmoid 被 训练 为 最 大 化 正确 预测 的 对 数 似 然 ， 即 在 每 个 时 间 步 序列 决 
定 结束 或 继续 。 

确定 序列 长 度 7 的 另 一 种 方法 是 将 一 个 额外 的 输出 添加 到 模型 并 预测 整数 r 本 
身 。 模 型 可 以 采 出 r 的 值 ， 然 后 采 7 步 有 价值 的 数据 。 这 种 方法 需要 在 每 个 时 间 
步 的 循环 更 新 中 增加 一 个 额外 输入 ， 使 得 循环 更 新 知道 它 是 否 是 靠近 所 产生 序列 的 
末尾 。 这 种 额外 的 输入 可 以 是 r 的 值 ， 也 可 以 是 了 于 即 剩 下 时 间 步 的 数量 。 如 果 
没有 这 个 额外 的 输入 ，RNN 可 能 会 产生 突然 结束 序列 ， 如 一 个 句子 在 最 终 完 整 前 结 
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束 。 此 方法 基于 分 解 
Pai， ai) = Pr)P(em ac 1 人) (10.34) 


直接 预测 7 的 例子 见 Goodfellow et wo/. (2014d) 。 


10.2.4 基于 上 下 文 的 RNNN 序列 建 模 


上 一 节 描 述 了 没有 输入 zz 时， 关于 随机 变量 序列 yi 的 RNN 如 何 对 应 于 有 向 图 
模型 。 当 然 ， 如 式 (10.8) 所 示 的 RNN 包 含 一 个 输入 序列 zz2) ,zt 。 一 般 情 况 
下 ，RNN 人 允许 将 图 模型 的 观点 扩展 到 不 仅 代 表 y 变量 的 联合 分 布 也 能 表示 给 定 z 
后 y 条 件 分 布 。 如 在 第 6.2.1.1 节 的 前 馈 网 络 情形 中 所 讨论 的 ,任何 代表 变量 P(w 9) 
的 模型 都 能 被 解释 为 代表 条 件 分 布 P(y | w) 的 模型 ， 其 中 w = 9。 我 们 能 像 之 前 一 
样 使 用 P(y | w) 代表 分 布 P(y | 四 来 扩展 这 样 的 模型 ， 但 要 令 w 是 关于 z 的 困 数 。 
在 RNN 的 情况 ,这 可 以 通过 不 同 的 方式 来 实现 。 此 处 ,我 们 回顾 最 常见 和 最 明显 的 
选择 。 

之 前 ,我们 已 经 讨论 了 将 上 = 1 ,7 的 向 量 zt 序列 作为 输入 的 RNN。 另 一 
种 选择 是 只 使 用 单个 向 量 z 作为 输入 。 当 z 是 一 个 固定 大 小 的 向 量 时 ， 我 们 可 以 简 
单 地 将 其 看 作 产生 y 序列 RNN 的 额外 输入 。 将 额外 输入 提供 到 RNN 的 一 些 常见 
方法 是 : 














1. 在 每 个 时 刻 作为 一 个 额外 输入 ,或 
2. 作为 初始 状态 败 0)， 或 
3. 结合 两 种 方式 。 











第 一 个 也 是 最 常用 的 方法 如 图 10.9 所 示 。 输 入 z 和 每 个 隐藏 单元 向 量 NM9 之 间 
的 相互 作用 是 通过 新 引入 的 权重 抢 阵 丸 参数 化 的 ， 这 是 只 包含 y 序列 的 模型 所 没有 
的 。 同 样 的 乘积 z" 尽 在 每 个 时 间 步 作为 隐藏 单元 的 一 个 额外 输入 。 我 们 可 以 认为 z 
的 选择 〈 确定 zI 玉 值 )， 是 有 效 地 用 于 每 个 隐藏 单元 的 一 个 新 偏 置 参数 。 权 重 与 输 
入 保持 独立 。 我 们 可 以 认为 这 种 模型 采用 了 非 条 件 模型 的 9， 并 将 w 代入 9， 其 中 
w 内 的 偏 置 参数 现在 是 输入 的 函数 。 

RNN 可 以 接收 向 量 序列 zt9 作为 输入 ， 而 不 是 仅 接收 单个 向 量 z 作为 输入 。 
式 (10.8) 描述 的 RNN 对 应 条 件 分 布 P(VG) ,VD | zzOD)， 并 在 条 件 独立 
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图 10.9: 将 固定 长 度 的 向 量 z 映射 到 序列 有 上 分 布 的 RNN。 这 类 RNN 适用 于 很 多 任务 如 图 注 ， 
其 中 单个 图 像 作为 模型 的 输入 ， 然 后 产生 描述 图 像 的 词 序列 。 观 察 到 的 输出 序列 的 每 个 元 素 y) 
同时 用 作 输 入 (对 于 当前 时 间 步 ) 和 训练 期 间 的 目标 (对 于 前 一 时 间 步 )。 









































的 假设 下 这 个 分 布 分 解 为 


由 关 辣 全 和 有. (10.35) 
为 去 掉 条 件 独立 的 假设 ， 我 们 可 以 在 时 刻 上 的 输出 到 时 刻 上 + 1 的 隐藏 单元 添加 连 
接 ， 如 图 10.10 所 示 。 该 模型 就 可 以 代表 关于 y 序列 的 任意 概率 分 布 。 这 种 给 定 一 个 
序列 表示 另 一 个 序列 分 布 的 模型 的 还 是 有 一 个 限制 ， 就 是 这 两 个 序列 的 长 度 必须 是 
相同 的 。 我 们 将 在 第 10.4 节 描述 如 何 消 除 这 种 限 甫 
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图 10.10: 将 可 变 长 度 的 z 值 序列 映射 到 相同 长 度 的 y 值 序列 上 分 布 的 条 件 循环 神经 网 络 。 对 比 
图 10.3 ， 此 RNN 包含 从 前 一 个 输出 到 当前 状态 的 连接 。 这 些 连 接 允 许 此 RNN 对 给 定 z 的 序列 后 
相同 长 度 的 y 序列 上 的 任意 分 布 建 模 。 图 10.3 的 RNN 仅 能 表示 在 给 定 z 值 的 情况 下 ，y 值 彼此 
条 件 独立 的 分 布 。 























10.3 双向 RNN 


目前 为 止 我 们 考虑 的 所 有 循环 神经 网 络 有 一 个 “因果 ”结构 ,意味 着 在 时 刻 了 的 
状态 只 能 从 过 去 的 序列 z0D ,zt 以 及 当前 的 输入 zt9 捕获 信息 。 我 们 还 讨论 
了 某 些 在 y 可 用 时 ， 人 允许 过 去 的 y 值 信息 影响 当前 状态 的 模型 。 

然而 ， 在 许多 应 用 中 ,我 们 要 输出 的 Yi9 的 预测 可 能 依赖 于 整个 输入 序列 。 例 
如 ， 在 语音 识别 中 ， 由 于 协同 发 音 ， 当 前 声音 作为 音素 的 正确 解释 可 能 取决 于 未 来 
几 个 音素 ， 甚 至 潜在 的 可 能 取决 于 未 来 的 几 个 词 ， 因 为 词 与 附近 的 词 之 间 的 存在 语 
义 依赖 : 如 果 当 前 的 词 有 两 种 声学 上 合理 的 解释 ， 我 们 可 能 要 在 更 远 的 未 来 ( 和 过 
去 ) 寻找 信息 区 分 它们 。 这 在 手写 识别 和 许多 其 他 序列 到 序列 学 习 的 任务 中 也 是 如 
此 ， 将 会 在 下 一 节 中 描述 。 

双向 循环 神经 网 络 (或 双向 RNN ) 为 满足 这 种 需要 而 被 发 明 (Schuster and 
Paliwal，1997)。 他 们 在 需要 双向 信息 的 应 用 中 非常 成 功 (Graves, 2012)， 如 手写 
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识别 (Graves et ol, 2008; Graves and Schmidhuber，2009)， 语 音 识 别 (Graves and 
Schmidhuber, 2005; Graves et olL.,，2013) 以 及 生物 信息 学 (Baldi et olL.，1999)。 


顾名思义 ， 双 向 RNN 结合 时 间 上 从 序列 起 点 开始 移动 的 RNN 和 另 一 个 时 间 上 
从 序列 末尾 开始 移动 的 RNN。 图 10.11 展示 了 典型 的 双向 RNN， 其 中 败 2 代表 通过 
时 间 向 前 移动 的 子 RNN 的 状态 ，g%2 代表 通过 时 间 向 后 移动 的 子 RNN 的 状态 。 这 
允许 输出 单元 oo 能 够 计算 同时 依赖 于 过 去 和 未 来 且 对 时 刻 二 的 输入 值 最 敏感 的 表 
示 ， 而 不 必 指 定 土 周围 固定 大 小 的 窗口 〈 这 是 前 馈 网 络 、 卷 积 网 络 或 具有 固定 大 小 
的 先行 缓存 器 的 稼 规 RNN 所 必须 要 做 的 )。 














图 10.11: 典型 的 双向 循环 神经 网 络 中 的 计算 ， 意 图 学 习 将 输入 序列 z 映射 到 目标 序列 y ( 在 每 个 
步骤 上 具有 损失 Ze9 )。 循 环 性 疡 在 时 间 上 向 前 传播 信息 ( 向 右 )， 而 循环 性 9 在 时 间 上 向 后 传播 
信息 (向 左 )。 因 此 在 每 个 点 二 输出 单元 o@ 可 以 受益 于 输入 5 中 关于 过 去 的 相关 概要 以 及 输 
入 g 史 中 关于 未 来 的 相关 概要 。 























这 个 想法 可 以 自然 地 扩展 到 2 维 输入 ， 如 图 像 ， 由 四 个 RNN 组 成 ， 每 一 个 沿 
着 四 个 方向 中 的 一 个 计算 : 上 、 下 、 左 、 右 。 如 果 RNN 能 够 学 习 到 承载 长 期 信息 ， 
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那 在 2 维 网 格 每 个 点 (27) 的 输出 0 就 能 计算 一 个 能 捕捉 到 大 多 局 部 信息 但 仍 依 
赖 于 长 期 输入 的 表示 。 相 比 卷 积 网 络 ， 应 用 于 图 像 的 RNN 计算 成 本 通常 更 高 ,但 人 允 
许 同 一 特征 图 的 特征 之 间 存 在 长 期 横向 的 相互 作用 (Visin et ol.,，2015; Kalchbrenner 
et al., 2015)。 实 际 上 ， 对 于 这 样 的 RNN， 前 向 传播 公式 可 以 写成 表示 使 用 卷 积 和 
形式 ， 计 算 自 底 向 上 到 每 一 层 的 输入 (在 整 和 
前 ) 





10.4 “基于 编码 -解码 的 序列 到 序列 架构 


我 们 已 经 在 图 10.5 看 到 RNN 如 何 将 输入 序列 映射 成 固定 大 小 的 向 量 ， 在 
图 10.9 中 看 到 RNN 如 何 将 固定 大 小 的 向 量 映 射 成 一 个 序列 ， 在 图 10.3 、 图 10.4 、 
图 10.10 和 图 10.11 中 看 到 RNN 如 何 将 一 个 输入 序列 映射 到 等 长 的 输出 序列 。 


本 节 我 们 讨论 如 何 训练 RNN， 使 其 将 输入 序列 映射 到 不 一 定 等 长 的 输出 序列 。 
这 在 许多 场景 中 都 有 应 用 ， 如 语音 识别 、 机 顺 翻 译 或 问答 ， 其 中 训练 集 的 输入 和 输 
出 序列 的 长 度 通常 不 相同 〈 虽然 它们 的 长 度 可 能 相关 ) 

我 们 经 常 将 RNN 的 输入 称 为 “上 下 文 ”。 ne C。 
个 上 下 文 C 可 能 是 一 个 概括 输入 序列 忆 = (z0)， )) 的 向 量 或 者 向 量 序 2 


用 于 映射 可 变 长 度 序 列 到 另 一 可 变 长 度 二 克 人 ER 架构 最 初 由 Cho 
et aq/. (2014a) 提出 ， 之 后 不 久 由 Sutskever et al. (2014) 独立 开发 ， 并 且 第 一 个 使 
用 这 种 方法 获得 翻译 的 最 好 结果 。 前 一 系统 是 对 另 一 个 机 器 翻译 系统 产生 的 建 
议 进 行 评 分 ， 而 后 者 使 用 独立 的 循环 网 络 生 成 翻译 。 这 些 作者 分 别 将 该 架构 称 
为 编码 -解码 或 序列 到 序列 架构 ， 如 图 10.12 所 示 。 这 个 想法 非常 简单 : (1) 编码 
器 (encoder ) 或 读 取 器 (reader) 或 输入 (input) RNN 处 理 输入 序列 。 编 码 需 输出 
上 下 文 C (通常 是 最 终 隐 藏 状态 的 简单 冰 数 ) 。(2) 解码 器 (decoder ) 或 写 入 器 
(writer) 或 输出 (output) RNN 则 以 固定 长 度 的 向 量 〈 如 图 10.9 ) 为 条 件 产生 输出 
序列 世 = (80 ,UW"o))。 这 种 架构 对 比 本 章 前 几 节 提出 的 架构 的 创新 之 处 在 于 长 
度 nz 和 7 了 ma 一 =T。 在 序列 到 序列 的 架构 
中 ， 两 个 RNN 共同 训练 以 最 大 化 log P(VYD ,yo) | xD 2 
中 所 有 z 和 2 对 的 平均 )。 编 码 吉 RNN 的 最 后 一 一 个 状态 必 。 通常 被 当 作 输 入 的 表 
示 C 并 作为 解码 器 RNN 的 输入 。 


如 果 上 下 文 C 是 一 个 向 量 ， 则 解码 器 RNN 只 是 在 第 10.2.4 节 描述 的 向 量 到 序 
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图 10.12: 在 给 定 输入 序列 (x,x(02),，... ,xz)) 的 情况 下 学 习 生 成 输出 序列 (yt ,y42) yt) 
的 编码 器 -解码 器 或 序列 到 序列 的 RNN 架构 的 示例 。 它 由 读 取 输入 序列 的 编码 器 RNN 以 及 生成 
输出 序列 〈 或 计算 给 定 输出 序列 的 概率 ) 的 解码 器 RNN 组 成 。 编 码 器 RNN 的 最 终 隐 藏 状态 用 于 
计算 一 般 为 固定 大 小 的 上 下 文 变量 C，C 表示 输入 序列 的 语义 概要 并 且 作 为 解码 器 RNN 的 输入 。 





























列 RNN。 正 如 我 们 所 见 ， 向 量 到 序列 RNN 至 少 有 两 种 接受 输入 的 方法 。 输 入 可 以 
被 提供 为 RNN 的 初始 状态 ， 或 连接 到 每 个 时 间 步 中 的 隐藏 单元 。 这 两 种 方式 也 可 以 


结合 。 


这 里 并 不 强制 要 求 编码 器 与 解码 器 的 隐藏 层 具 有 相同 的 大 小 。 

此 架构 的 一 个 明显 不 足 是 ， 编 码 器 RNN 输出 的 上 下 文 C 的 维度 太 小 而 难以 适 
当地 概括 一 个 长 序列 。 这 种 现象 由 Bahdanau et o/. (2015) 在 机 器 翻译 中 观察 到 。 他 
们 提出 让 C 成 为 可 变 长 度 的 序列 ， 而 不 是 一 个 固定 大 小 的 向 量 。 此 外 ， 他 们 还 引入 
了 将 序列 C 的 元 素 和 输出 序列 的 元 素 相 关联 的 注意 力 机 制 ( attention mechanism )。 
读者 可 在 第 12.4.5.1 节 了 解 更 多 细节 。 











340 第 十 章 ，” 序 列 建 模 : 循环 和 递归 网 络 


10.5 深度 循环 网 络 


大 多 数 RNN 中 的 计算 可 以 分 解 成 三 块 参数 及 其 相关 的 变换 : 





1. 从 输入 到 隐藏 状态 ， 
2. 从 前 一 隐藏 状态 到 下 一 隐藏 状态 ， 以 及 
3. 从 隐藏 状态 到 输出 。 





根据 图 10.3 中 的 RNN 架构 ,这 三 个 块 都 与 单个 权重 矩阵 相关 联 。 换 句 话 说， 当 网 络 
被 展开 时 ， 每 个 块 对 应 一 个 浅 的 变换 。 能 通过 深度 MLP 内 单个 层 来 表示 的 变换 称 为 
浅 变换 。 通 常 ， 这 是 由 学 成 的 仿 射 变 换 和 一 个 固定 非 线性 表示 组 成 的 变换 。 

在 这 些 操 作 中 引入 深度 会 有 利 的 吗 ? 实验 证 据 (Graves et w/L，2013; Pascanu 
ef oa.，2014a) 强烈 暗示 理应 如 此 。 实 验证 据 与 我 们 需要 足够 的 深度 以 执行 所 需 
映射 的 想法 一 致 。 读 者 可 以 参考 Schmidhuber (1992); El Hihi and Bengio (1996) 
或 Jaeger (2007a) 了 解 更 早 的 关于 次 度 RNN 的 研究 。 

Graves et ol (2013) 第 一 个 展示 了 将 RNN 的 状态 分 为 多 层 的 显著 好 处 ， 如 
图 10.13 (上 堪 ) 我 们 可 以 认为 , 在 图 10.13 (a) 所 示 层 次 结构 中 较 低 的 层 起 到 了 将 原始 
输入 转化 为 对 更 高 层 的 隐藏 状态 更 合适 表示 的 作用 。Pascanu et ol. (2014a) 更 进一步 
提出 在 上 述 三 个 块 中 各 使 用 一 个 单独 的 MLP ( 可 能 是 深度 的 )， 如 图 10.13 (b) 所 示 。 
考虑 表示 容量 ， 我 们 建议 在 这 三 个 步 中 都 分 配 足 够 的 容量 ， 但 增加 深度 可 能 会 因为 
优化 困难 而 损害 学 习 效 果 。 在 一 般 情 况 下 ,更 容易 优化 较 浅 的 架构 ,加 入 图 10.13 (b) 
的 额外 深度 导致 从 时 间 步 十 的 变量 到 时 间 步 二 + 1 的 最 短路 径 变 得 更 长 。 例 如 ， 如 果 
具有 单个 隐藏 层 的 MLP 被 用 于 状态 到 状态 的 转换 ， 那 么 与 图 10.3 相 比 ， 我 们 就 会 
加 倍 任何 两 个 不 同时 间 步 变量 之 间 最 短路 径 的 长 度 。 然 而 Pascanu et ol. (2014a) 认 
为 ， 在 隐藏 到 隐藏 的 路 径 中 引入 跳跃 连接 可 以 缓和 这 个 问题 ， 如 图 10.13 (c) 所 示 。 
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人 


(b) (9) 








图 10.13: 循环 神经 网 络 可 以 通过 许多 方式 变 得 更 深 (Pascanu et olL., 2014a)。(a) 隐藏 循环 状态 可 
以 被 分 解 为 具有 层次 的 组 。(b) 可 以 向 输入 到 隐藏 ， 隐 藏 到 隐藏 以 及 隐藏 到 输出 的 部 分 引入 更 深 的 
计算 (如 MLP)。 这 可 以 延长 链接 不 同时 间 步 的 最 短路 径 。(c) 可 以 引入 跳跃 连接 来 缓解 路 径 延长 
的 效应 。 
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递归 神经 网 络 ? 代 表 循 环 网 络 的 另 一 个 扩展 ， 它 被 构造 为 深 的 树 状 结构 而 不 
是 RNN 的 链 状 结构 , 因此 是 不 同类 型 的 计算 图 .递归 网 络 的 典型 计算 图 如 图 10.14 所 
示 。 递 归 神 经 网 络 由 Pollack (1990) 引入 ， 而 Bottou (2011) 摘 述 了 这 类 网 络 的 潜在 
用 途 一 一 学 习 推 论 。 递 归 网 络 已 成 功 地 应 用 于 输入 是 数据 结构 的 神经 网 络 (Irasconi 
et al., 1997,， 1998)， 如 自然 语言 处 理 (Socher et al., 201la,c, 2013a) 和 计算 机 视觉 
(Socher et al., 2011b)。 

递归 网 络 的 一 个 明显 优势 是 ， 对 于 具有 相同 长 度 r 的 序列 ， 深 度 〈 通 过 非 线 性 
操作 的 组 合 数量 来 衡量 ) 可 以 急剧 地 从 r 减 小 为 O(logr)， 这 可 能 有 助 于 解决 长 期 


?我 们 建议 不 要 将 “递归 神经 网 络 ”缩写 为 “RNN”， 以 免 与 “循环 神经 网 络 ” 混 消 。 
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依赖 。 一 个 基 而 未 决 的 问题 是 如 何以 最 佳 的 方式 构造 树 。 一 种 选择 是 使 用 不 依赖 于 
数据 的 树 结构 ， 如 平衡 二 又 树 。 在 某 些 应 用 领域 ， 外 部 方法 可 以 为 选择 适当 的 树 结 构 
提供 借鉴 。 例 如 ， 处 理 自 然 语言 的 句子 时 ， 用 于 递归 网 络 的 树 结 构 可 以 被 固定 为 句 
子 语法 分 析 树 的 结构 (可 以 由 自然 语言 语法 分 析 程 序 提 供 ) ee et al.,， 2011auc)。 
理想 的 情况 下 ， 人 们 和 希望 学 习 咒 自行 发 现 和 推断 适合 于 任意 给 定 输入 的 树 结 构 ， 如 
(Bottou, 2011) 所 建议 。 





croroxe 


图 10.14: 递归 网 络 将 循环 网 络 的 链 状 计算 图 推广 到 树 状 计算 图 .可 变 大 小 的 序列 ztD, zt(2)，.….， 0) 
可 以 通过 固定 的 参数 集合 (权重 矩阵 忌 凤 殉 ) 映射 到 固定 大 小 的 表示 〈 输 出 o )。 该 图 展示 了 监 
督学 习 的 情况 ， 其 中 提供 了 一 些 与 整个 序列 相关 的 目标 2。 



































递归 网 络 想法 的 变种 存在 很 多 。 例 如 ，HFrasconi et ol. (1997) 和 Frasconi et al. 
(1998) 将 数据 与 树 结构 相关 联 ， 并 将 输入 和 目标 与 树 的 单独 节点 相关 联 。 由 每 个 节 
点 执行 的 计算 无 须 是 传统 的 人 工 神经 计算 (所 有 输入 的 仿 射 变换 后 跟 一 个 单调 非 线 
性 )。 例 如 ，Socher et oL. (2013a) 提出 用 张 量 运算 和 双 线 性 形式 ， 在 这 之 前 人 们 已 
经 发 现 当 概念 是 由 连续 向 量 〈 骨 入 ) 表示 时 ， 这 种 方式 有 利于 建 模 概念 之 间 的 联系 
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(Weston et al., 2010; Bordes et al.,， 2012)。 


10.7 “长 期 依赖 的 挑战 


学 习 循环 网 络 长 期 依赖 的 数学 挑战 在 第 8.2.5 节 中 引入 。 根 本 问题 是 ， 经 过 许多 
阶段 传播 后 的 梯度 倾向 于 消失 (大 部 分 情况 ) 或 爆炸 〈 很 少 ， 但 对 优化 过 程 影响 很 
大 )。 即 使 我 们 假设 循环 网 络 是 参数 稳定 的 (可 存储 记忆 , 且 梯 度 不 爆炸 ), 但 长 期 依 
赖 的 困难 来 自 比 短期 相互 作用 指数 小 的 权重 (涉及 许多 Jacobian 相 乘 )。 许多 资料 提 
供 了 更 深层 次 的 讨论 (Hochreiter, 1991a; Doya, 1993; Bengio et a1., 1994b; Pascanu 
et al., 2013a)。 在 这 一 节 中 ， 我 们 会 更 详细 地 描述 该 问题 。 其 余 几 节 介 绍 克服 这 个 问 
题 的 方法 。 

循环 网 络 涉及 相同 函数 的 多 次 组 合 ， 每 个 时 间 步 一 次 。 这 些 组合 可 以 导致 极端 
非 线性 行为 ， 如 图 10.15 所 示 。 





Projection of output 





一 60 一 40 一 20 0 20 40 60 


Input coordinate 








图 10.15: 重复 组 合 函 数 。 当 组 合 许多 非 线性 函数 ( 如 这 里 所 示 的 线性 tanh 层 ) 时 ， 结 果 是 高 度 
非 线性 的 ， 通 常 大 多 数值 与 微小 的 导数 相关 联 ， 也 有 一 些 具 有 大 导数 的 值 ， 以 及 在 增加 和 减 小 之 
间 的 多 次 交替 。 此 处 ， 我 们 绘制 从 100 维 隐 藏 状态 降 到 单个 维度 的 线性 投影 ， 绘 制 于 y 轴 上 。z 
轴 是 100 维 空间 中 沿 着 随机 方向 的 初始 状态 的 坐标 。 因 此 ， 我 们 可 以 将 该 图 视 为 高 维 函 数 的 线性 
截面 。 曲 线 显 示 每 个 时 间 步 之 后 的 函数 ， 或 者 等 价 地 ， 转 换 函 数 被 组 合 一 定 次 数 之 后 。 
































特别 地 ， 循 环 神经 网 络 所 使 用 的 函数 组 合 有 点 像 矩 阵 乘法 。 我 们 可 以 认为 ， 循 
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环 联系 
RD 一 三 A 人 9) (10.36) 


是 一 个 非常 简单 的 、 缺 少 非 线性 激活 函数 和 输入 z 的 循环 神经 网 络 。 如 第 8.2.5 节 描 
述 ， 这 种 递 推 关系 本 质 上 描述 了 老 法 。 它 可 以 被 简化 为 





万 风 二 (Te0)， (10.37) 
而 当 符合 下 列 形 式 的 特征 分 解 


信 = QAQ ， (10.38) 








其 中 Q@Q 正 交 ， 循 环 性 可 进一步 简化 为 
jh = QI AQRLO)， (10.39) 


特征 值 提升 到 寺 次 后 ， 导 致 幅 值 不 到 一 的 特征 值 衰减 到 零 ， 而 幅 值 大 于 一 的 就 会 激 
增 。 任 何不 与 最 大 特征 向 量 对 齐 的 juo) 的 部 分 将 最 终 被 丢弃 。 

这 个 问题 是 针对 循环 网 络 的 。 在 标量 情况 下 ， 想 象 多 次 乘 一 个 权重 ww。 该 乘积 
\ 妨 消失 还 是 爆炸 取决 于 的 幅 值 。 然 而 ， 如 果 每 个 时 刻 使 用 不 同 权 重 vt 的 非 循 
环 网 络 ， 情 况 就 不 同 了 。 如 果 初 始 状态 给 定 为 1， 那 么 时 刻 二 的 状态 可 以 由 Tt 
给 出 。 假 设 vt 的 值 是 随机 生成 的 ， 各 自 独 立 ， 且 有 0 均值 v 方差 。 乘 积 的 方差 
就 为 O(w"”)。 为 了 获得 某 些 期 望 的 方差 兴 ， 我 们 可 以 选择 单个 方差 为 v = Yur* 权 
重 。 因 此 ， 非 常 深 的 前 馈 网 络 通过 精心 设计 的 比例 可 以 避免 梯度 消失 和 爆炸 问题 ， 
如 Sussillo (2014) 所 主张 的 。 

RNN 梯度 消失 和 爆炸 问题 是 由 不 同 研 究 人 员 独 立 发 现 (Hochreiter，1991ai 
Bengio et al!., 1993, 1994b)。 有 人 可 能 会 希望 通过 简单 地 停留 在 梯度 不 消失 或 爆炸 的 
参数 空间 来 避免 这 个 问题 。 不幸 的 是 , 为 了 储存 记忆 并 对 小 扰动 具有 和 鲁 棒 性 , RNN 必 
须 进 入 参数 空间 中 的 梯度 消失 区 域 (Bengio et ol/., 1993, 1994b)。 具 体 来 说 ， 每 当 模 
型 能 够 表示 长 期 依赖 时 ， 长 期 相互 作用 的 梯度 幅 值 就 会 变 得 指数 小 〈 相 比 短期 相互 
作用 的 梯度 幅 值 )。 这 并 不 意味 着 这 是 不 可 能 学 习 的 ， 由 于 长 期 依赖 关系 的 信和 号 很 容 
易 被 短期 相关 性 产生 的 最 小 波动 隐藏 ， 因 而 学 习 长 期 依赖 可 能 需要 很 长 的 时 间 。 实 
践 中 ，Bengio et al!. (1994b) 的 实验 表明 ， 当 我 们 增加 了 需要 捕获 的 依赖 关系 的 跨度 ， 
基于 梯度 的 优化 变 得 越 来 越 困 难 ，SGD 在 长 度 仅 为 10 或 20 的 序列 上 成 功 训练 传 
统 RNN 的 概率 迅速 变 为 0。 
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将 循环 网 络 作 为 动力 系统 更 深入 探讨 的 资料 见 Doya (1993); Bengio et ol 
(1994b); Siegelmann and Sontag (1995) 及 Pascanu et o/. (2013b) 的 回顾 。 本 章 的 其 
余部 分 将 讨论 目前 已 经 提出 的 降低 学 习 长 期 依赖 (在 某 些 情况 下 ,人 允许 一 个 RNN 学 
习 横 跨 数 百 步 的 依赖 ) 难度 的 不 同方 法 ， 但 学 习 长 期 依赖 的 问题 仍 是 深度 学 习 中 的 
一 个 主要 挑战 。 
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从 ht- 到 ho 的 循环 权重 映射 以 及 从 zt 到 jn9 的 输入 权重 映射 是 循环 网 
络 中 最 难 学 习 的 参数 。 研 究 者 (Jaeger, 2003; Maass et olL.，2002; Jaeger and Haas， 
2004; Jaeger,， 2007b) 提出 避免 这 种 困难 的 方法 是 设 定 循环 隐藏 单元 ， 使 其 能 很 好 
地 捕捉 过 去 输入 历史 ， 并 且 只 学 习 输 出 权重 。 回 声 状态 网 络 (echo state network ) 
或 ESN (Jaeger and Haas，2004; Jaeger，2007b)， 以 及 流体 状态 机 (liquid state 
machine ) (Maass et al.，2002) 分 别 独立 地 提出 了 这 种 想法 。 后 者 是 类 似 的 ， 只 不 
过 它 使 用 脉冲 神经 元 (二 值 输出 ) 而 不 是 ESN 中 的 连续 隐藏 单元 。ESN 和 流体 状 
态 机 都 被 称 为 储 层 计算 ( reservoir computing ) (Lukosevigius and Jaeger, 2009)， 
为 隐藏 单元 形成 了 可 能 捕获 输入 历史 不 同方 面 的 临时 特征 池 。 

储 层 计算 循环 网 络 类 似 于 核 机 需 ， 这 是 思考 它们 的 一 种 方式 : 它们 将 任意 长 度 
的 序列 (到 时 刻 上 的 输入 历史 ) 映射 为 一 个 长 度 固 定 的 向 量 (循环 状态 凡 5 )， 之 后 
可 以 施加 一 个 线性 预测 算 子 〈 通 常 是 一 个 线性 回归 ) 以 解决 感 兴趣 的 问题 。 训 练 准 
则 就 可 以 很 容易 地 设计 为 输出 权重 的 凸 函 数 。 例 如 ， 如 果 输 出 是 从 隐藏 单元 到 输出 
目标 的 线性 回归 ， 训 练 准则 就 是 均 方 误差 ， 由 于 是 凸 的 就 可 以 用 简单 的 学 习 算 法 可 
靠 地 解决 (Jaeger, 2003)。 

因此 ， 重 要 的 问题 是 : 我 们 如 何 设置 输入 和 循环 权重 才能 让 一 组 丰富 的 历史 可 
以 在 循环 神经 网 络 的 状态 中 表示 ? 储 层 计 算 研 究 给 出 的 答案 是 将 循环 网 络 视 为 动态 
系统 ， 并 设 定 让 动态 系统 接近 稳定 边缘 的 输入 和 循环 权重 。 

最 初 的 想法 是 使 状态 到 状态 转换 函数 的 Jacobian 和 珑 阵 的 特征 值 接 近 1。 如 
第 8.2.5 节 解释 ， 循 环 网 络 的 一 个 重要 特征 就 是 Jacobian 矩阵 的 特征 值 谱 .7 = 
8 特别 重要 的 是 .Jo 的 谱 半 径 (spectral radius )， 定 义 为 特征 值 的 最 大 绝对 
值 。 

为 了 解 谱 半径 的 影响 ， 可 以 考虑 反问 传播 中 Jacobian 矩阵 了 不 随 上 改变 的 简单 
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情况 。 例 如 当 网 络 是 纯 线 性 时 ， 会 发 生 这 种 情况 。 假 设 ,7 特征 值 对 应 的 特征 向 量 
为 v。 考虑 当 我 们 通过 时 间 向 后 传播 梯度 向 量 时 会 发 生 什 么 。 如 果 刚 开始 的 梯度 向 量 
为 9， 然 后 经 过 反 向 传播 的 一 个 步骤 后 ， 我 们 将 得 到 .jg，7m 步 之 后 我 们 会 得 到 . 灵 g。 
现在 考虑 如 果 我 们 向 后 传播 扰动 版 本 的 9 会 发 生 什么 。 如 果 我 们 刚 开始 是 9 二 5v， 
一 步 之 后 ， 我 们 会 得 到 .J(g + gu)。7m 步 之 后 ， 我 们 将 得 到 . 严 (g9+ 5o)。 由 此 我 们 可 
以 看 出 , 由 9 开始 的 反 向 传播 和 由 9 十 6v 开始 的 反 向 传播 ,mn 步 之 后 偏离 6.jv。 如 
果 风 选择 为 了 特征 值 ^ 对 应 的 一 个 单位 特征 向 量 ， 那 么 在 每 一 步 乘 Jacobian 抢 阵 
只 是 简单 地 缩放 。 反 向 传播 的 两 次 执行 分 离 的 距离 为 由 |。 当 v" 对 应 于 最 大 特征 值 
|， 初始 扰动 为 5 时 这 个 扰动 达到 可 能 的 最 宽 分 离 。 

当 |A| > 1， 偏 差 由 和 |” 就 会 指数 增长 。 当 | 和 | < 1， 偏 差 就 会 变 得 指数 小 。 

当然 ， 这 个 例子 假定 Jacobian 和 抑 阵 在 每 个 时 间 步 是 相同 的 ， 即 对 应 于 没有 非 线 
性 循环 网 络 。 当 非 线性 存在 时 ， 非 线性 的 导数 将 在 许多 时 间 步 后 接近 零 ， 并 有 助 于 
防止 因 过 大 的 谱 半 径 而 导致 的 爆炸 。 事 实 上 ， 关 于 回声 状态 网 络 的 最 近 工 作 提 倡 使 
用 远大 于 1 的 谱 半 径 (Yildiz et al., 2012; Jaeger, 2012)。 

我 们 已 经 说 过 多 次 ， 通 过 反复 矩阵 乘法 的 反 向 传播 同样 适用 于 没有 非 线 性 的 正 
向 传播 的 网 络 ， 其 状态 为 t+D = PT7 T。 

如 果 线 性 映射 三 " 在 玫 范 数 的 测度 下 总 是 缩小 疡 ， 那 么 我 们 说 这 个 映射 是 收 
缩 ( contractive ) 的 。 当 谱 半 径 小 于 一 ,， 则 从 有 9 到 Air) 的 映射 是 收缩 的 ， 因 此 小 
变化 在 每 个 时 间 步 后 变 得 更 小 。 当 我 们 使 用 有 限 精度 (如 32 位 整数 ) 来 存储 状态 向 
量 时 ， 必 然 会 使 得 网 络 忘掉 过 去 的 信息 。 

Jacobian 矩阵 告诉 我 们 Ai2 一 个 微小 的 变化 如 何 向 前 一 步 传 播 ， 或 等 价 的 ， 
hi+D) 的 梯度 如 何 向 后 一 步 传播 。 需 要 注意 的 是 ， 人 三 和 JJ 都 不 需要 是 对 称 的 (尽管 
它们 是 实 方 阵 )， 因 此 它们 可 能 有 复 的 特征 值 和 特征 向 量 ， 其 中 虚数 分 量 对 应 于 洪 
在 的 振 萝 行 为 (如 果 迭 代 地 应 用 同一 Jacobian )。 即 使 9 或 io 中 有 趣 的 小 变化 
在 反 向 传播 中 是 实 值 的 , 它们 仍 可 以 用 这 样 的 复数 基 表 示 。 重 要 的 是 ， 当 向 量 乘 以 拢 
阵 时 ， 这 些 复数 基 的 系数 幅 值 ( 复数 的 绝对 值 ) 会 发 生 什 么 变化 。 幅 值 大 于 1 的 特 
征 值 对 应 于 放大 (如 果 反 复 应 用 则 指数 增长 ) 或 收缩 (如果 反 复 应 用 则 指数 减 小 )。 

非 线 性 映射 情况 时 ，Jacobian 会 在 每 一 步 任 意 变化 。 因 此 ， 动 态 量变 得 更 加 复 
杂 。 然 而 ， 一 个 小 的 初始 变化 多 步 之 后 仍然 会 变 成 一 个 大 的 变化 。 纯 线性 和 非 线性 
情况 的 一 个 不 同 之 处 在 于 使 用 压缩 非 线 性 〈 如 tanh ) 可 以 使 循环 动态 量 有 界 。 注 意 ， 
即使 前 向 传播 动态 量 有 界 ， 反 向 传播 的 动态 量 仍然 可 能 无 界 ， 例 如 ， 当 tanh 序列 
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都 在 它们 状态 中 间 的 线性 部 分 ， 并 且 由 谱 半 径 大 于 1 的 权重 矩阵 连接 。 然 而 ， 所 有 
tanh 单元 同时 位 于 它们 的 线性 激活 点 是 非常 罕见 的 。 

回声 状态 网 络 的 策略 是 简单 地 固定 权重 使 其 具有 一 定 的 谱 半径 如 3， 其 中 信息 
通过 时 间 前 向 传播 ， 但 会 由 于 饱和 非 线性 单元 (如 tanh ) 的 稳定 作用 而 不 会 爆炸 。 

最 近 ， 已 经 有 研究 表明 ， 用 于 设置 ESN 权重 的 技术 可 以 用 来 初始 化 完全 可 训练 
的 循环 网 络 的 权重 (通过 时 间 反 向 传播 来 训练 隐藏 到 隐藏 的 循环 权重 )， 帮 助 学 习 长 
期 依赖 (Sutskever, 2012; Sutskever et ul., 2013)。 在 这 种 设 定 下 ， 结 合 第 8.4 节 中 稀 
芯 初 始 化 的 方案 ， 设 置 1.2 的 初始 谱 半 径 表 现 不 错 。 


























10.9 “ 渗 漏 单元 和 其 他 多 时 间 尺 度 的 策略 


处 理 长 期 依赖 的 一 种 方法 是 设计 工作 在 多 个 时 间 斥 度 的 模型 ， 使 模型 的 某 些 部 
分 在 细 粒 度 时 间 斥 度 上 操作 并 能 处 理 小 细节 ， 而 其 他 部 分 在 粗 时 间 斥 度 上 操作 并 能 
把 遥远 过 去 的 信息 更 有 效 地 传递 过 来 。 存 在 多 种 同时 构建 粗细 时 间 斥 度 的 策略 。 这 
些 策略 包括 在 时 间 轴 增加 跳跃 连接 ,“ 渗 漏 单元 ”使 用 不 同时 间 常 数 整 合 信号 ， 并 去 
除 一 些 用 于 建 模 细 粒 度 时 间 尺 度 的 连接 。 











10.9.1 时间 维度 的 跳跃 连接 

















增加 从 遥远 过 去 的 变量 到 目前 变量 的 直接 连接 是 得 到 粗 时 间 尺 度 的 一 种 方法 。 
使 用 这 样 跳 牙 连 接 的 想法 可 以 追溯 到 Lin et al. (1996)， 紧 接 是 向 前 馈 网 络 引入 延迟 
的 想法 (Lang and Hinton, 1988)。 在 普通 的 循环 网 络 中 ， 循 环 从 时 刻 上 的 单元 连接 
到 时 刻 上 +1 单 元。 构造 较 长 的 延迟 循环 网 络 是 可 能 的 (Bengio, 1991)。 

正如 我 们 在 第 8.2.5 节 看 到 ， 梯 度 可 能 关于 时 间 步 数 呈 指数 消失 或 爆炸 。(Lin 
ef dl., 1996) 引入 了 qd 延 时 的 循环 连接 以 减轻 这 个 问题 。 现 在 导数 指数 减 小 的 速度 与 
5 相关 而 不 是 r。 既 然 同时 存在 延迟 和 单 步 连接 ， 梯 度 仍 可 能 成 上 指数 爆炸 。 这 人 允许 
学 习 算 法 捕获 更 长 的 依赖 性 ， 但 不 是 所 有 的 长 期 依赖 都 能 在 这 种 方式 下 恨 好 地 表示 。 
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10.9.2 ” 渗 漏 单元 和 一 系列 不 同时 间 尺 度 





获得 导数 乘积 接近 1 的 另 一 方式 是 设置 线性 自 连接 单元 ， 并 且 这 些 连 接 的 权重 
接近 1。 

我 们 对 某 些 v 值 应 用 更 新 U0 二 ant +(L- a)vo 累积 一 个 滑动 平均 值 wb ， 
其 中 a 是 一 个 从 pt 到 At 线性 自 连接 的 例子 。 当 a 接近 1 时 ,滑动 平均 值 能 记 
住 过 去 很 长 一 段 时 间 的 信息 ,而 当 a 接近 0, 关于 过 去 的 信息 被 迅速 丢弃 。 线 性 自 连 
接 的 隐藏 单元 可 以 模拟 滑动 平均 的 行为 。 这 种 隐藏 单元 称 为 渗 漏 单元 (leaky unit )。 

d 时 间 步 的 跳跃 连接 可 以 确保 单元 总 能 被 d 个 时 间 步 前 的 那个 值 影响 。 使 用 权 
重 接近 !1 的 线性 自 连 接 是 确保 该 单元 可 以 访问 过 去 值 的 不 同方 式 。 线 性 自 连 接 通过 
调节 实 值 a 更 平滑 灵活 地 调整 这 种 效果 ， 而 不 是 调整 整数 值 的 跳跃 长 度 。 

这 个 想法 由 Mozer (1992) 和 El Hihi and Bengio (1996) 提出 。 在 回声 状态 网 
络 中 ， 渗 漏 单元 也 被 发 现 很 有 用 (Jaeger et al.,， 2007)。 

我 们 可 以 通过 两 种 基本 策略 设置 渗 漏 单元 使 用 的 时 间 筑 数 。 一 种 策略 是 手动 将 
其 固定 为 常数 ， 例 如 在 初始 化 时 从 某 些 分 布 采样 它们 的 值 。 另 一 种 策略 是 使 时 间 常 
数 成 为 自由 变量 ， 并 学 习 出 来 。 在 不 同时 间 尺 度 使 用 这 样 的 渗 漏 单元 似乎 能 帮助 学 
习 长 期 依赖 (Mozer，1992; Pascanu et aL.，2013a)。 
































10.9.3 ”删除 连接 


处 理 长 期 依赖 另 一 种 方法 是 在 多 个 时 间 尺 度 组 织 RNN 状态 的 想法 (El Hihi and 
Bengio, 1996) ， 信 息 在 较 慢 的 时 间 尺 度 上 更 容易 长 距离 流动 。 

这 个 想法 与 之 前 讨论 的 时 间 维度 上 的 跳跃 连接 不 同 ， 因 为 它 涉及 主动 删除 长 度 
为 一 的 连接 并 用 更 长 的 连接 替换 它们 。 以 这 种 方式 修改 的 单元 被 迫 在 长 时 间 尺 度 上 
运作 。 而 通过 时 间 跳 跃 连接 是 添加 边 。 收 到 这 种 新 连接 的 单元 ， 可 以 学 习 在 长 时 间 
尺度 上 运作 ， 但 也 可 以 选择 专注 于 自己 其 他 的 短期 连接 。 

强制 一 组 循环 单元 在 不 同时 间 尺 度 上 运作 有 不 同 的 方式 。 一 种 选择 是 使 循环 
单元 变 成 渗 漏 单元 ， 但 不 同 的 单元 组 关联 不 同 的 固定 时 间 尺 记 。 这 由 Mozer (1992) 
提出 ， 并 被 成 功 应 用 于 Pascanu et ol. (2013a)。 另 一 种 选择 是 使 显 式 且 离散 的 更 新 
发 生 在 不 同 的 时 间 ， 不 同 的 单元 组 有 不 同 的 频率 。 这 是 El Hipi and Bengio (1996) 
和 Koutnik et wo (2014) 的 方法 。 它 在 一 些 基 准 数据 集 上 表现 不 错 。 
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10.10 ”长 短期 记忆 和 其 他 门 控 RNN 


本 文 抒写 之 时 ， 实 际 应 用 中 最 有 效 的 序列 模型 称 为 门 控 RNN (gated RNN )。 
包括 基于 长 短期 记忆 (long short-term memory ) 和 基于 门 控 循 环 单元 (gated 
recurrent unit ) 的 网 络 。 

像 渗 漏 单元 一 样 , 门 控 RNN 想法 也 是 基于 生成 通过 时 间 的 路 径 ， 其 中 导数 既 不 
消失 也 不 发 生 爆 炸 。 渗 漏 单 元 通过 手动 选择 常量 的 连接 权重 或 参数 化 的 连接 权重 来 
达到 这 一 目的 。 门 控 RNN 将 其 推广 为 在 每 个 时 间 步 都 可 能 改变 的 连接 权重 。 

渗 漏 单元 允许 网 络 在 较 长 持续 时 间 内 积累 信息 (诸如 用 于 特定 特征 或 类 的 线 
索 )。 然 而 ， 一 旦 该 信息 被 使 用 ， 让 神经 网 络 遗 忘 旧 的 状态 可 能 是 有 用 的 。 例 如 ， 如 
果 一 个 序列 是 由 子 序列 组 成 ， 我 们 希望 渗 漏 单元 能 在 各 子 序列 内 积累 线索 ， 我 们 需 
要 将 状态 设置 为 0 以 忘记 旧 状 态 的 机 制 。 我 们 希望 神经 网 络 学 会 决定 何 时 清除 状态 ， 
而 不 是 手动 决定 。 这 就 是 门 控 RNN 要 做 的 事 。 


























10.10.1 LSTM 


引入 自 循 环 的 巧妙 构思 ， 以 产生 梯度 长 时 间 持 续 流 动 的 路 径 是 初始 长 短期 记忆 
(long short-term memory, LSTM ) 模型 的 核心 贡献 (Hochreiter and Schmidhuber， 
1997)。 甚 中 一 个 关键 扩展 是 使 自 循 环 的 权重 视 上 下 文 而 定 ， 而 不 是 固定 的 (Gers 
et al., 2000)。 门 控 此 自 循 环 〈 由 另 一 个 隐藏 单 元 控制 ) 的 权重 ， 累 积 的 时 间 太 度 可 
以 动态 地 改变 。 在 这 种 情况 下 ， 即 使 是 具有 固定 参数 的 LSTM， 累 积 的 时 间 斥 度 也 
可 以 因 输入 序列 而 改变 ， 因 为 时 间 和 常数 是 模型 本 身 的 输出 。LSTM 已 经 在 许多 应 用 
中 取得 重大 成 功 ， 如 无 约束 手写 识别 (Graves et al., 2009)、 语 音 识别 (Graves et al 
2013; Graves and Jaitly, 2014)、 手 写生 成 (Graves, 2013)、 机 器 翻译 (Sutskever et ol， 
2014) 、 为 图 像 生成 标题 (Kiros et al., 2014b; Vinyals et o/.，2014b; Xu et al.，2015) 
和 解析 (Vinyals et al., 2014a)。 


LSTM 块 如 图 10.16 所 示 。 在 浅 循环 网 络 的 架构 下 ， 相 应 的 前 向 传播 公式 如 下 。 
更 深 的 架构 也 被 成 功 应 用 (Graves et al.,，2013; Pascanu et ul., 2014a)。LSTM 循 
环 网 络 除了 外 部 的 RNN 循环 外 ， 还 具有 内 部 的 “LSTM 细胞 ”循环 ( 自 环 )， 
此 工 STM 不 是 简单 地 向 输入 和 循环 单元 的 仿 射 变换 之 后 施加 一 个 逐 元 素 的 非 线性 。 
与 普通 的 循环 网 络 类 似 ， 每 个 单元 有 相同 的 输入 和 输出 ， 但 也 有 更 多 的 参数 和 控制 
信息 流动 的 门 控 单 元 系统 。 最 重要 的 组 成 部 分 是 状态 单元 s9”， 与 前 一 节 讨 论 的 渗 漏 
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图 10.16: LSTM 循环 网 络 “ 细 胞 ”的 框图 。 细 胞 彼此 循环 连接 ， 代 替 一 般 循 环 网 络 中 普通 的 隐藏 





单元 。 这 


























使 用 常规 的 人 工 神 经 元 计算 输入 特征 。 如 果 sigmoid 输入 门 允 许 , 它 的 值 可 以 累加 到 状 














态 。 状 态 单元 具有 线性 自 循环 ， 其 权 

















遗忘 门 控制 。 细 胞 的 输出 可 以 被 输出 门 关 团 。 所 有 门 控 单 






































元 都 具有 sigmoid 非 线性 ， 而 输入 单元 可 具有 任意 的 压缩 非 线性 。 状 态 单 元 也 可 以 用 作 门 控 单 元 
的 额外 输入 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 。 








单元 有 类 似 的 线性 
(forget gate ) 了 
间 的 值 : 











自 环 。 然 而 ， 此 处 自 环 的 权重 (或 相关 联 的 时 间 常 数 ) 由 遗忘 门 
控制 (时刻 二 和 细胞 ?),， 由 sigmoid 单元 将 权重 设置 为 0 和 1 之 





的 = 人 + 于 吧 史 + 开 昌 夏天 00.0) 
终 了 











其 中 zt5 是 当前 输入 向 量 ， 姑 是 当前 隐藏 层 向 量 ， 产 包含 所 有 LSTM 细胞 的 输出 。 


间 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 因 此 LSTM 细胞 内 部 状态 





D17， UV JW 分 别 是 
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以 如 下 方式 更 新 ， 其 中 有 一 个 条 件 的 自 环 权重 /0) : 








s( 一 0stD 十 gc 人 +》 Usyz 记 二》 5 风 人 )， (10.41) 
光 了 





其 中 咏 忆 歼 分 别 是 LSTM 细胞 中 的 偏 置 、 输 入 权重 和 和 遗忘 门 的 循环 权重 。 外 部 输 
入 门 (external input gate) 单元 9 以 类 似 遗 忘 门 〈 使 用 sigmoid 获 得 一 个 0 和 1 工 之 
间 的 值 ) 的 方式 更 新 ， 但 有 自身 的 参数 ; 








9 = (六 站 认 (10.42) 
了 了 
LSTM 细胞 的 输出 太 9 也 可 以 由 输出 门 (output gatej go) 关闭 (使 用 sigmoid 单 元 
作为 门 控 ) 


jz 一 tanhfst)gt)， (10.43) 


4 
8 人 ( 必 十 六 DizY 号 2 外)， 9 
7 了 





其 中 名, DZ 厂 ” 分 别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 在 这 些 变 体 中 ， 可 以 
选择 使 用 细胞 状态 st9 作为 额外 的 输入 (及 其 权重 )， 输 入 到 第 ;个 单元 的 三 个 门 ， 
如 图 10.16 所 示 。 这 将 需要 三 个 额外 的 参数 。 

LSTM 网 络 比 简 单 的 循环 架构 更 易于 学 习 长 期 依赖 ， 先 是 用 于 测试 长 期 依 
赖 学 习 能 力 的 人 工 数据 集 (Bengio et ow/., 1994c; Hochreiter and Schmidhuber，1997; 
Hochreiter et ol., 2001)， 然 后 是 在 具有 挑战 性 的 序列 处 理 任 务 上 获得 最 先进 的 表现 
(Graves, 2012, 2013; Sutskever et al., 2014)。LSTM 的 变 体 和 替代 也 已 经 被 研究 和 
使 用 ， 这 将 在 下 文 进行 讨论 。 











10.10.2 ”其 他 门 控 RNNIN 








LSTM 架构 中 哪些 部 分 是 真正 必须 的 ? 还 可 以 设计 哪些 其 他 成 功 架 构 允 许 网 络 
动态 地 控制 时 间 尺 度 和 不 同 单元 的 遗忘 行为 ? 

最 近 关 于 门 控 RNN 的 工作 给 出 了 这 些 问 题 的 某 些 答案 , 其 单元 也 被 称 为 门 控 循 
环 单元 或 GRU (Cho et olL., 2014c; Chung et aol.， 2014, 2015a; Jozefowicz et al.， 2015; 
Chrupala et ol., 2015)。 与 LSTM 的 主要 区 别 是 ， 单 个 门 探 单元 同时 控制 遗忘 因子 
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和 更 新 状态 单元 的 决定 。 更 新 公式 如 下 : 








用 = 由 9 几 TG 几 Djo( 人 + 开 Do+ 开 本 由， (004 
了 了 








其 中 飞 代 表 “ 更 新 ” 门 , 了 表示 “复位 ” 门 。 它 们 的 值 就 如 通常 所 定义 的 : 


= 人 (人 oO)， (10.46) 
了 了 





和 
) = 人 十 2 十 > Wi) ee 
5 5 


复位 和 更 新 门 能 独立 地 “忽略 ”状态 向 量 的 一 部 分 。 更 新 门 像 条 件 活 漏 累 积 器 一 样 可 
以 线性 门 控 任 意 维度 ， 从 而 选择 将 它 复 制 (在 sigmoid 的 一 个 极端 ) 或 完全 由 新 的 
“目标 状态 ” 值 (朝向 渗 漏 累积 器 的 收敛 方向 ) 蔡 换 并 完全 忽略 它 〈 在 另 一 个 极端 )。 
复位 门 控制 当前 状态 中 哪些 部 分 用 于 计算 下 一 个 目标 状态 ， 在 过 去 状态 和 未 来 状态 
之 间 引 入 了 附加 的 非 线性 效应 。 

围绕 这 一 主题 可 以 设计 更 多 的 变种 。 例 如 复位 门 〈 或 遗忘 门 ) 的 输出 可 以 在 
多 个 隐藏 单元 间 共 享 。 或 者 ， 全 局 门 的 乘积 ( 履 盖 一 整 组 的 单元 ， 例 如 整 一 层 ) 和 
一 个 局 部 门 〈 每 单元 ) 可 用 于 结合 全 局 控制 和 局 部 控制 。 然 而 ， 一 些 调查 发 现 这 
些 LSTM 和 GRU 架构 的 变种 ， 在 广泛 的 任务 中 难以 明显 地 同时 击败 这 两 个 原始 架 
构 (Gref et ol., 2015; Jozefowicz et al., 2015)。Greff et aol. (2015) 发 现 其 中 的 关键 因 
素 是 遗忘 门 ,， 而 Jozefowicz et al1. (2015) 发 现 向 LSTM 遗忘 门 加 入 1 的 偏 置 (由 Gers 
et al. (2000) 提倡 ) 能 让 LSTM 变 得 与 已 探索 的 最 佳 变 种 一 样 健壮 。 


















































10.11 优化 长 期 依赖 


我 们 已 经 在 第 8.2.5 节 和 第 10.7 节 中 摘 述 过 在 许多 时 间 步 上 优化 RNN 时 发 生 
的 梯度 消失 和 爆炸 的 问题 。 

由 Martens and Sutskever (2011) 提出 了 一 个 有 趣 的 想法 是 ,二 阶 导 数 可 能 在 一 
阶 导数 消失 的 同时 消失 。 二 阶 优化 算法 可 以 大 致 被 理解 为 将 一 阶 导 数 除 以 二 阶 导 数 
(在 更 高 维 数 ， 由 梯度 乘 以 Hessian 的 逆 )。 如 果 二 阶 导 数 与 一 阶 导 数 以 类 似 的 速率 
收缩 ， 那 么 一 阶 和 二 阶 导数 的 比率 可 保持 相对 恒定 。 不 幸 的 是 ， 二 阶 方法 有 许多 缺 
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点 ， 包 括 高 的 计算 成 本 、 需 要 一 个 大 的 小 批量 、 并 且 倾 向 于 被 吸引 到 鞍点 。Martens 
and Sutskever (2011) 发 现 采 用 二 阶 方法 的 不 错 结果 。 之 后 ，Sutskever et aol. (2013) 
发 现 使 用 较 简 单 的 方法 可 以 达到 类 似 的 结果 ， 例 如 经 过 谨慎 初始 化 的 Nesterov 动量 
法 。 更 详细 的 内 容 参考 Sutskever (2012)。 应 用 于 LSTM 时 ， 这 两 种 方法 在 很 大 程 
度 上 会 被 单纯 的 SGD (甚至 没有 动量 ) 取代 。 这 是 机 器 学 习 中 一 个 延续 的 主题 ， 设 
计 一 个 易于 优化 模型 通常 比 设计 出 更 加 强大 的 优化 算法 更 容易 。 





10.11.1 ”截断 梯度 


如 第 8.2.4 节 讨论 ， 强 非 线 性 函数 (如 由 许多 时 间 步 计算 的 循环 网 络 ) 往往 倾 癌 
于 非常 大 或 非常 小 幅度 的 梯度 。 如 图 8.3 和 图 10.17 所 示 ， 我 们 可 以 看 到 ， 目 标 函 数 
(作为 参数 的 函数 ) 存在 一 个 伴随 “ 悬 岩 ” 的 “地 形 ”: 宽 且 相当 平坦 区 域 被 目标 函 
数 变 化 快 的 小 区 域 隔 开 ， 形 成 了 一 种 悬崖 。 

这 导致 的 困难 是 ， 当 参数 梯度 非常 大 时 ， 梯 度 下 降 的 参数 更 新 可 以 将 参数 抛 出 
很 远 ， 进 入 目标 函数 较 大 的 区 域 ， 到 达 当 前 解 所 作 的 努力 变 成 了 无 用 功 。 梯 度 告诉 
我 们 ， 围 绕 当 前 参数 的 无 穷 小 区 域内 最 速 下 降 的 方向 。 这 个 无 穷 小 区 域 之 外 ， 代 价 
函数 可 能 开始 沿 曲 线 背 面 而 上 。 更 新 必须 被 选择 为 足够 小 ， 以 避免 过 分 穿越 同上 的 
曲面 。 我 们 通常 使 用 衰减 速度 足够 慢 的 学 习 率 ， 使 连续 的 步骤 具有 大 致 相同 的 学 习 
率 。 适 合 于 一 个 相对 线性 的 地 形 部 分 的 步 长 经 常 在 下 一 步 进 入 地 形 中 更 加 弯曲 的 部 
分 时 变 得 不 适合 ， 会 导致 上 坡 运动 。 

一 个 简单 的 解决 方案 已 被 从 业者 使 用 多 年 : 截断 梯度 (clipping the gradient )。 
此 想法 有 不 同 实 例 (Mikolov, 2012; Pascanu et al., 2013a)。 一 种 选择 是 在 参数 更 新 
之 前 ， 逐 元 素 地 截断 小 批量 产生 的 参数 梯度 (Mikolov, 2012)。 另 一 种 是 在 参数 更 新 
之 前 截断 梯度 g 的 范 数 | gl (Pascanu et alL.，2013a) : 




















庄 |gl >w (10.48) 
9V 

|9l 
其 中 v 是 范 数 上 界 ，9 用 来 更 新 参数 。 因 为 所 有 参数 (包括 不 同 的 参数 组 ， 如 权重 
和 偏 置 ) 的 梯度 被 单个 缩放 因子 联合 重 整 化， 所 以 后 一 方法 具有 的 优点 是 保证 了 每 
个 步骤 仍然 是 在 梯度 方向 上 的 ， 但 实验 表明 两 种 形式 类 似 。 虽 然 参 数 更 新 与 真实 梯 
度 具 有 相同 的 方向 梯度 ,经 过 梯度 范 数 截断 ,参数 更 新 的 向 量 范 数 现在 变 得 有 界 。 这 
种 有 界 梯度 能 避免 执行 梯度 爆炸 时 的 有 害 一 步 。 事 实 上 ， 当 梯度 大 小 高 于 国 值 时 ， 即 


g 全 (10.49) 
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Without clipping With clipping 
3 3 
5 忆 
也 ?0 
已 已 














图 10.17: 梯度 截断 在 有 两 个 参数 w_ 和 刀 的 循环 网 络 中 的 效果 示例 。 梯 度 截 断 可 以 使 梯度 下 降 在 
极 陡峭 的 悬 崖 附近 更 合理 地 执行 。 这 些 陡 峭 的 悬崖 通常 发 生 在 循环 网 络 中 , 位 于 循环 网 络 近似 线性 
的 附近 。 悬 崖 在 时 间 步 的 数量 上 呈 指 数 地 陡峭 ， 因 为 对 于 每 个 时 间 步 ， 权 重 矩 阵 都 自 乘 一 次 。( 左 /) 
没有 梯度 截断 的 梯度 下 降 越过 这 个 小 峡谷 的 底部 ， 然 后 从 悬崖 面 接收 非常 大 的 梯度 。 大 梯度 灾难 
性 地 将 参数 推 到 图 的 轴 外 。( 右 ) 使 用 梯度 截断 的 梯度 下 降 对 悬崖 的 反应 更 温和 。 当 它 上 升 到 悬崖 
面 时 ， 步 长 受到 限制 ， 使 得 它 不 会 被 推出 靠近 解 的 陡峭 区 域 。 经 Pascanu et o/ (2013a) 许可 改编 
此 图 。 















































使 是 采取 简单 的 随机 步骤 往往 工作 得 几乎 一 样 好 。 如 果 爆 炸 非常 严重 ， 梯 度数 值 上 
为 Inf 或 Nan (无 穷 大 或 不 是 一 个 数字 )， 则 可 以 采取 大 小 为 v 的 随机 一 步 ， 通 常 
会 离开 数值 不 稳定 的 状态 。 截 断 每 小 批量 梯度 范 数 不 会 改变 单个 小 批量 的 梯度 方向 。 
然而 ， 许 多 小 批量 使 用 范 数 截断 梯度 后 的 平均 值 不 等 同 于 截断 真实 梯度 〈 使 用 所 有 
的 实例 所 形成 的 梯度 ) 的 范 数 。 大 导数 范 数 的 样本 ， 和 像 这 样 的 出 现在 同一 小 批量 的 
样本 ， 其 对 最 终 方向 的 贡献 将 消失 。 不 像 传统 小 批量 梯度 下 降 ， 其 中 真实 梯度 的 方 
向 是 等 于 所 有 小 批量 梯度 的 平均 。 换 句 话 说， 传统 的 随机 梯度 下 降 使 用 梯度 的 无 偏 
估计 ， 而 与 使 用 范 数 截断 的 梯度 下 降 引 入 了 经 验 上 是 有 用 的 启发 式 偏 置 。 通 过 逐 元 
素 截断 ， 更 新 的 方向 与 真实 梯度 或 小 批量 的 梯度 不 再 对 齐 ， 但 是 它 仍然 是 一 个 下 降 
方向 。 还 有 学 者 提出 (Graves, 2013) 〈 相对 于 隐藏 单元 ) 截断 反 向 传播 梯度 ， 但 没有 
公布 与 这 些 变 种 之 间 的 比较 ; 我 们 推测 ， 所 有 这 些 方法 表现 类 似 。 
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10.11.2 ”引导 信息 流 的 正则 化 


梯度 截断 有 助 于 处 理 爆炸 的 梯度 ， 但 它 无 助 于 消失 的 梯度 。 为 了 解决 消失 的 梯 
度 问 题 并 更 好 地 捕获 长 期 依赖 ， 我 们 讨论 了 如 下 想法 : 在 展开 循环 架 构 的 计算 图 中 ， 
沿 着 与 弧 边 相关 联 的 梯度 乘积 接近 1 的 部 分 创建 路 径 。 在 第 10.10 节 中 已 经 讨论 过 ， 
实现 这 一 点 的 一 种 方法 是 使 用 LSTM 以 及 其 他 自 循环 和 门 控 机 制 。 另 一 个 想法 是 正 
则 化 或 约束 参数 ， 以 引导 “信息 流 ”。 特 别 是 即使 损失 函数 只 对 序列 尾部 的 输出 作 惩 
罚 ， 我 们 也 希望 梯度 向 量 Van 在 反 向 传播 时 能 维持 其 幅度 。 形 式 上 ， 我 们 要 使 




















PR 
人 页 (10.50) 
省 

Vi (10.51) 

一 样 大 。 在 这 个 目标 下 ，Pascanu et al!. (2013a) 提出 以 下 正则 项 : 

( 芭 ) 2 
(Vho 万 直人 

忆 二 1 工 | . 10.52 
>- | ee 


计算 这 一 梯度 的 正则 项 可 能 会 出 现 困 难 ， 但 Pascanu et aol. (2013a) 提出 可 以 将 后 向 
传播 向 量 Vxo 工 考虑 为 恒 值 作为 近似 (为 了 计算 正则 化 的 目的 ， 没 有 必要 通过 它们 
向 后 传播 )。 使 用 该 正则 项 的 实验 表明 ， 如 果 与 标准 的 启发 式 截断 (处理 梯度 爆炸 ) 
相 结合 ， 该 正则 项 可 以 显著 地 增加 RNN 可 以 学 习 的 依赖 跨度 。 梯 度 截 断 特 别 重 要 ， 
因为 它 保持 了 爆炸 梯度 边缘 的 RNN 动态 。 如 果 没 有 梯度 截断 ,梯度 爆炸 将 阻碍 学 习 
的 成 功 。 

这 种 方法 的 一 个 主要 弱点 是 ， 在 处 理 数据 元 余 的 任务 时 如 语言 模型 ， 它 并 不 
像 LSTM 一 样 有 效 。 


10.12 ”外 显 记忆 


智能 需要 知识 并 且 可 以 通过 学 习 获 取 知 识 ， 这 已 促使 大 型 深度 架构 的 发 展 。 然 
而 ， 知 识 是 不 同 的 并 且 种 类 繁多 。 有 些 知识 是 隐 含 的 、 潜 意识 的 并 且 难 以 用 语言 
达 一 一 比如 怎么 行走 或 狗 与 猫 的 样子 有 什么 不 同 。 其 他 知识 可 以 是 明确 的 、 可 陈述 
的 以 及 可 以 相对 简单 地 使 用 词语 表达 一 一 每 天 常识 性 的 知识 ， 如 “ 猫 是 一 种 动物 ”， 











356 第 十 章 “” 序 列 建 模 : 循环 和 递归 网 络 








或 者 为 实现 自己 当前 目标 所 需 知 道 的 非常 具体 的 事实 ， 如 “与 销售 团队 会 议 在 141 
室 于 下 午 3:00 开始 ”。 

神经 网 络 擅长 存储 隐 性 知识 ， 但 是 他 们 很 难 记 住 事实 。 被 存储 在 神经 网 络 参 数 
中 之 前 ， 随 机 梯度 下 降 需要 多 次 提供 相同 的 输入 ， 即 使 如 此 ， 该 输入 也 不 会 被 特 
别 精 确 地 存储 。Graves et 咏 (2014) 推测 这 是 因为 神经 网 络 缺 乏 工 作 存 储 (working 
memory) 系统 ， 即 类 似 人 类 为 实现 一 些 目标 而 明确 保存 和 操作 相关 信息 片段 的 系统 。 
这 种 外 显 记忆 组 件 将 使 我 们 的 系统 不 仅 能 够 快速 “故意 ”地 存储 和 检索 具体 的 事实 ， 
也 能 利用 他 们 循序 推论 。 神 经 网 络 处 理 序列 信息 的 需要 ， 改 变 了 每 个 步骤 向 网 络 注 
和 人 输入 的 方式 ， 长 期 以 来 推理 能 力 被 认为 是 重要 的 ， 而 不 是 对 输入 做 出 自动 的 、 直 
观 的 反应 (Hinton, 1990) 。 

为 了 解决 这 一 难题 ，Weston et ol. (2014) 引入 了 记忆 网 络 ( memory network )， 
其 中 包括 一 组 可 以 通过 寻 址 机 制 来 访问 的 记忆 单元 。 记 忆 网 络 原 本 需要 监督 信和 号 
指示 他 们 如 何 使 用 自己 的 记忆 单元 。Graves et al. (2014) 引入 的 神经 网 络 图 灵机 
(Cneural Turing machine )， 不 需要 明确 的 监督 指示 采取 哪些 行动 而 能 学 习 从 记忆 单 
元 读 写 任意 内 容 ， 并 通过 使 用 基于 内 容 的 软 注 意 机 制 ( 见 Bahdanau et o/. (2015) 
和 第 12.4.5.1 节 )， 人 允许 端 到 端的 训练 。 这 种 软 寻 址 机 制 已 成 为 其 他 允许 基于 梯度 优 
化 的 模拟 算法 机 制 的 相关 架构 的 标准 (Sukhbaatar et al., 2015; Joulin and Mikolov， 
2015; Kumar et al.,， 2015a; Vinyals et al.，2015a; Grefenstette et al.，2015)。 


每 个 记忆 单元 可 以 被 认为 是 LSTM 和 GRU 中 记忆 单元 的 扩展 。 不 同 的 是 ， 网 
络 输出 一 个 内 部 状态 来 选择 从 哪个 单元 读 取 或 写 信 ， 正 如 数字 计算 机 读 取 或 写 人 到 
特定 地 址 的 内 存 访 问 。 

产生 确切 整数 地 址 的 函数 很 难 优化 。 为 了 缓解 这 一 问题 ，NTM 实际 同时 从 多 个 
记忆 单元 写 和 或 读 取 。 读 取 时 ， 它 们 采取 许多 单元 的 加 权 平 均值 。 写 和 人 时， 他 们 对 
多 个 单元 修改 不 同 的 数值 。 用 于 这 些 操作 的 系数 被 选择 为 集中 在 一 个 小 数目 的 单元 ， 
如 通过 softmax 函数 产生 它们 。 使 用 这 些 具 有 非 零 导数 的 权重 允许 冰 数控 制 访问 存 
储 器 ， 从 而 能 使 用 梯度 下 降 法 优化 。 关 于 这 些 系数 的 梯度 指示 着 其 中 每 个 参数 是 应 
该 增加 还 是 减少 ， 但 梯度 通常 只 在 接收 大 系数 的 存储 器 地 址 上 变 大 。 

这 些 记 忆 单 元 通常 扩充 为 包含 向 量 ， 而 不 是 由 LSTM 或 GRU 存储 单元 所 存 
储 的 单个 标量 。 增 加 记忆 单元 大 小 的 原因 有 两 个 。 原 因 之 一 是 ， 我 们 已 经 增加 了 访 
问 记 忆 单 元 的 成 本 。 我 们 为 产生 用 于 许多 单元 的 系数 付出 计算 成 本 ， 但 我 们 预期 这 
些 系数 聚集 在 周 玮 小 数目 的 单元 。 通 过 读 取 向 量 值 ， 而 不 是 一 个 标量 ， 我 们 可 以 抵 
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消 部 分 成 本 。 使 用 向 量 值 的 记忆 单元 的 另 一 个 原因 是 ， 它 们 人 允许 基于 内 容 的 寻 址 
(content-based addressing)， 其 中 从 一 个 单元 读 或 写 的 权重 是 该 单元 的 函数 。 如 果 我 
们 能 够 生产 符合 某 些 但 并 非 所 有 元 素 的 模式 ， 回 量 值 单元 允许 我 们 检索 一 个 完整 向 
量 值 的 记忆 。 这 类 似 于 人 们 能 够 通过 几 个 歌词 回忆 起 一 首 歌曲 的 方式 。 我 们 可 以 认 
为 基于 内 容 的 读 取 指令 是 说 ,“ 检 索 一 首 副 歌 歌词 中 带 有 : 我 们 都 住 在 黄色 潜水 艇 : 的 
歌 ”。 当 我 们 要 检索 的 对 象 很 大 时 ， 基 于 内 容 的 寻 址 更 为 有 用 一 一 如 果 歌 曲 的 每 一 个 
字母 被 存储 在 单独 的 记忆 单元 中 , 我 们 将 无 法 通过 这 种 方式 找到 他 们 。 通 过 比较 ,， 基 
于 位 置 的 寻 址 (location-based addressing) 不 允许 引用 存储 需 的 内 容 。 我 们 可 以 认为 
基于 位 置 的 读 取 指 令 是 说 “检索 347 档 的 歌 的 歌词 ?>。 即 使 当 存 储 单元 很 小 时 ， 基 于 
位 置 的 寻 址 通常 也 是 完全 合理 的 机 制 。 

如 果 一 个 存储 单元 的 内 容 在 大 多 数 时 间 步 上 会 被 复制 (不 被 忘记 )， 则 它 包 含 的 
言 息 可 以 在 时 间 上 疝 前 传播 ， 随 时 间 疝 后 传播 的 梯度 也 不 会 消失 或 爆炸 。 
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图 10.18: 具有 外 显 记忆 网 络 的 示意 图 ， 具 备 神经 网 络 图 灵机 的 一 些 关键 设计 元 素 。 在 此 图 中 , 我 
们 将 模型 的 “表示 ”部 分 “任务 网 络 ”， 这 里 是 底部 的 循环 网 络 ) 与 存储 事实 的 模型 〈 记忆 单 元 的 
集合 ) 的 “存储 器 ”部 分 区 分 开 。 任 务 网 络 学 习 “控制 ”存储 器 ， 决 定 从 哪 读 取 以 及 在 哪 写 和 人 《〈 通 
过 读 取 和 写 人 机 制 ， 由 指向 读 取 和 写 人 地 址 的 粗 箭头 指示 ) 



































外 显 记 忆 的 方法 在 图 10.18 说 明 ， 其 中 我 们 可 以 看 到 与 存储 吉 耦 接 的 “任务 神 
经 网 络 ”。 虽 然 这 一 任务 神经 网 络 可 以 是 前 镶 或 循环 的 ， 但 整个 系统 是 一 个 循环 网 
络 。 任 务 网 络 可 以 选择 读 取 或 写 和 的 特定 内 存 地 址 。 外 显 记 忆 似乎 允许 模型 学 习 普 
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通 RNN 或 LSTM RNN 不 能 学 习 的 任务 。 这 种 优点 的 一 个 原因 可 能 是 因为 信息 和 梯 
度 可 以 在 非常 长 的 持续 时 间 内 传播 (分别 在 时 间 上 向 前 或 向 后 )。 

作为 存储 器 单元 的 加 权 平 均值 反 向 传播 的 奉 代 ， 我 们 可 以 将 存储 器 寻 址 系数 解 
释 为 概率 ， 并 随机 从 一 个 单元 读 取 (Zaremba and Sutskever,，2015)。 优 化 离散 决策 
的 模型 需要 专门 的 优化 算法 ,这 将 在 第 20.9.1 节 中 描述 。 目 前 为 止 , 训练 这 些 做 离散 
决策 的 随机 架构 ， 仍 比 训练 进行 软 判 决 的 确定 性 算法 更 难 。 

无 论 是 软 (允许 反 向 传播 ) 或 随机 硬性 的 ， 用 于 选择 一 个 地 址 的 机 制 与 先前 
在 机 器 翻译 的 背景 下 引入 的 注意 力 机 制 形式 相同 (Bahdanau et ol.,， 2015)， 这 在 
第 12.4.5.1 节 中 也 有 讨论 。 甚 至 更 早 之 前 ， 注 意 力 机 制 的 想法 就 被 引入 了 神经 网 络 ， 
在 手写 生成 的 情况 下 (Graves, 2013)， 有 一 个 被 约束 为 通过 序列 只 向 前 移动 的 注意 力 
机 制 。 在 机 器 翻译 和 记忆 网 络 的 情况 下 ， 每 个 步 又 中 关注 的 焦点 可 以 移动 到 一 个 完 
全 不 同 的 地 方 ( 相 比 之 前 的 步骤)。 

循环 神经 网 络 提供 了 将 深度 学 习 扩 展 到 序列 数据 的 一 种 方法 。 它 们 是 我 们 的 深 
度 学 习 工 具 箱 中 最 后 一 个 主要 的 工具 。 现 在 我 们 的 讨论 将 转移 到 如 何 选择 和 使 用 这 
些 工 具 ， 以 及 如 何在 真实 世界 的 任务 中 应 用 这 些 工 具 。 
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要 成 功 地 使 用 深度 学 习 技术 ， 仅 仅 知 道 存 在 哪些 算法 和 解释 他 们 为 何 有 效 的 原 
理 是 不 够 的 。 一 个 优秀 的 机 器 学 习 实 践 者 还 需要 知道 如 何 针对 具体 应 用 挑选 一 个 合 
适 的 算法 以 及 如 何 监控 ， 并 根据 实验 反馈 改进 机 器 学 习 系 统 。 在 机 器 学 习 系统 的 日 
常 开发 中 ， 实 践 考 需要 决定 是 否 收 集 更 多 的 数据 、 增 加 或 减少 模型 容量 、 添 加 或 删 
除 正则 化 项 、 改 进 模型 的 优化 、 改 进 模型 的 近似 推 肠 或 调试 模型 的 软件 实现 。 尝 试 
这 些 操作 都 需要 大 量 时 间 ， 因 此 确定 正确 做 法 ， 而 不 盲目 猜测 尤为 重要 的 。 

本 书 的 大 部 分 内 容 都 是 关于 不 同 的 机 器 学 习 模型 、 训 练 算法 和 目标 函数 。 这 可 
能 给 人 一 种 印象 一 一 成 为 机 器 学 习 专家 的 最 重要 因素 是 了 解 各 种 各 样 的 机 器 学 习 技 
术 , 并 熟悉 各 种 不 同 的 数学 。 在 实践 中 , 正确 使 用 一 个 普通 算法 通常 比 草率 地 使 用 一 
个 不 清楚 的 算法 效果 更 好 。 正 确 应 用 一 个 算法 需要 掌握 一 些 相当 简单 的 方法 论 。 本 
章 的 许多 建议 都 来 自 Ng (2015)。 

我 们 建议 参考 以 下 几 个 实践 设计 流程 : 


























。 确 定 目标 一 一 使 用 什么 样 的 误差 度量 ， 并 为 此 误差 度量 指定 目标 值 。 这 些 目标 
和 误差 度量 取决 于 该 应 用 旨 在 解决 的 问题 。 


。 尽 快 建立 一 个 端 到 端的 工作 流程 ， 包 括 佑 计 合 适 的 性 能 度量 。 

。 搭建 系 统 ， 并 确定 性 能 瓶 绒 。 检 查 哪 个 部 分 的 性 能 差 于 预期 ， 以 及 是 否 是 因 
为 过 拟 合 、 欠 拟 合 ， 或 者 数据 或 软件 缺陷 造成 的 。 

。 根据 具体 观察 反复 地 进行 增 量 式 的 改动 ， 如 收集 新 数据 、 调 整 超 参 数 或 改进 算 











我 们 将 使 用 街景 地 址 号 码 转录 系统 (Goodfellow et ol., 2014d) 作为 一 个 运行 示 
例 。 该 应 用 的 目标 是 将 建筑 物 添 加 到 谷歌 地 图 。 街 景 车 拍摄 建筑 物 ， 并 记录 与 每 张 
359 
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建筑 照片 相关 的 GPS 坐标 。 卷 积 网 络 识别 每 张 照片 上 的 地 址 号 码 ， 由 谷歌 地 图 数据 
库 在 正确 的 位 置 添加 该 地 址 。 这 个 商业 应 用 是 一 个 很 好 的 示例 ， 它 的 开发 流程 遵循 
我 们 倡导 的 设计 方法 。 

我 们 现在 描述 这 个 过 程 中 的 每 一 个 步 又 。 





11.1 性 能 度量 


确定 目标 ， 即 使 用 什么 误差 度量 ， 是 必要 的 第 一 步 ， 因 为 误差 度量 将 指导 接 下 
来 的 所 有 工作 。 同 时 我 们 也 应 该 了 解 大 概 能 得 到 什么 级 别 的 目标 性 能 。 

值得 注意 的 是 对 于 大 多 数 应 用 而 言 ， 不 可 能 实现 绝对 零 误 差 。 即 使 你 有 无 限 的 
训练 数据 ， 并 且 恢复 了 真正 的 概率 分 布 ， 贝 叶 斯 误差 仍 定 义 了 能 达到 的 最 小 错误 率 。 
这 是 因为 输入 特征 可 能 无 法 包含 输出 变量 的 完整 信息 ， 或 是 因为 系统 可 能 本 质 上 是 
随机 的 。 当 然 我 们 还 会 受 限 于 有 限 的 训练 数据 。 

训练 数据 的 数量 会 因为 各 种 原因 受到 限制 。 当 目标 是 打造 现实 世界 中 最 好 的 产 
品 或 服务 时 ,我们 通常 需要 收集 更 多 的 数据 , 但 必须 确定 进一步 减少 误差 的 价值 , 并 
与 收集 更 多 数据 的 成 本 做 权衡 。 数 据 收 集会 耗费 时 间 、 人 金钱 ， 或 带 来 人 体 痛 昔 〈 例 
如 ， 收 集 人 体 医疗 测试 数据 )。 科研 中 ， 目 标 通常 是 在 某 个 确定 基准 下 探讨 哪个 算法 
更 好 ， 一 般 会 固定 训练 集 ， 不 允许 收集 更 多 的 数据 。 

如 何 确定 合理 的 性 能 期 望 ? 在 学 术 界 ， 通 常 我 们 可 以 根据 先前 公布 的 基准 结果 
来 佑 计 预 期 错误 率 。 在 现实 世界 中 ， 一 个 应 用 的 错误 率 有 必要 是 安全 的 、 具 有 成 本 
效益 的 或 吸引 消费 者 的 。 一 旦 你 确定 了 想 要 达到 的 错误 率 ， 那 么 你 的 设计 将 由 如 何 
达到 这 个 错误 率 来 指导 。 

除了 需要 考虑 性 能 度量 之 外 ， 另 一 个 需要 考虑 的 是 度量 的 选择 。 我 们 有 几 种 不 
同 的 性 能 度量 ， 可 以 用 来 度量 一 个 含有 机 融 学 习 组 件 的 完整 应 用 的 有 效 性 。 这 些 性 
能 度量 通常 不 同 于 训练 模型 的 代价 函数 。 如 第 5.1.2 节 所 述 ， 我 们 通常 会 度量 一 个 系 
统 的 准确 率 ， 或 等 价 地 ， 错 误 率 。 

然而 ， 许 多 应 用 需要 更 高 级 的 度量 。 

有 时 ， 一 种 错误 可 能 会 比 另 一 种 错误 更 严重 。 例 如 ， 垃 圾 邮件 检测 系统 会 有 两 
种 错误 : 将 正常 邮件 错误 地 归 为 垃圾 邮件 ， 将 垃圾 邮件 错误 地 归 为 正常 邮件 。 阻 止 
正常 消息 比 允 许可 疑 消 息 通 过 糖 糕 得 多 。 我 们 希望 度量 某 种 形式 的 总 代价 ， 其 中 拦 
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截 正 常 邮件 比 允 许 垃 圾 邮件 通过 的 代价 更 高 ， 而 不 是 度量 垃圾 邮件 分 类 的 错误 率 。 
有 时 ， 我 们 需要 训练 检测 某 些 罕见 事件 的 二 元 分 类 器 。 例 如 ， 我 们 可 能 会 为 一 
种 罕见 疾病 设计 医疗 测试 。 假 设 每 一 百 万 人 中 只 有 一 人 患 病 。 我 们 只 需要 让 分 类 器 
一 直 报 告 没有 患者 ， 就 能 轻易 地 在 检测 任务 上 实现 99.9999% 的 正确 率 。 显 然 ， 正 确 
率 很 难 描述 这 种 系统 的 性 能 。 解 决 这 个 问题 的 方法 是 度量 精度 (precision ) 和 召回 
率 (recall )。 精 度 是 模型 报告 的 检测 是 正确 的 比率 ， 而 召回 率 则 是 真实 事件 被 检测 
到 的 比率 。 检 测 器 永远 报告 没有 患者 ， 会 得 到 一 个 完美 的 精度 ， 但 召回 率 为 零 。 而 
报告 每 个 人 都 是 患者 的 检测 器 会 得 到 一 个 完美 的 召回 率 ， 但 是 精度 会 等 于 人 和 群 中 患 
有 该 病 的 比例 (在 我 们 的 例子 是 0.0001%， 每 一 百 万 人 只 有 一 人 患 病 )。 当 使 用 精 
度 和 召回 率 时 ， 我 们 通常 会 画 PR. 曲线 (PR curve ) ，y 轴 表 示 精 度 ，z 轴 表 示 召 
回 率 。 如 果 检 测 到 的 事件 发 生 了 ， 那 么 分 类 器 会 返回 一 个 较 高 的 得 分 。 例 如 ， 我 们 
将 前 馈 网 络 设计 为 检测 一 种 疾病 ， 佑 计 一 个 医疗 结果 由 特征 z 表示 的 人 患 病 的 概率 
为 了 = Po=1L|zm。 每 当 这 个 得 分 超过 某 个 阔 值 时 ， 我 们 报告 检测 结果 。 通 过 调 
整 闵 值 ， 我 们 能 权衡 精度 和 召回 率 。 在 很 多 情况 下 ， 我 们 希望 用 一 个 数 而 不 是 曲线 
来 概括 分 类 器 的 性 能 。 要 做 到 这 一 点 ， 我 们 可 以 将 精度 p 和 召回 率 ” 转换 为 下 分 数 


(FF-score ) 











2D7 
二 

另 一 种 方法 是 报告 PR 曲线 下 方 的 总 面积 。 
在 一 些 应 用 中 ， 机 器 学 习 系 统 可 能 会 拒绝 做 出 判断 。 如 果 机 央 学 习 算法 能 够 佑 
计 所 作 判 断 的 置信 和 度 , 这 将 会 非常 有 用 , 特别 是 在 错误 判断 会 导致 严重 危害 ， 而 人 工 
操作 员 能 够 偶尔 接管 的 情况 下 。 街 景 转录 系统 可 以 作为 这 种 情况 的 一 个 示例 。 这 个 
任务 是 识别 照片 上 的 地 址 号 码 ， 将 照片 拍摄 地 点 对 应 到 地 图 上 的 地 址 。 如 果 地 图 是 
不 精确 的 ， 那 么 地 图 的 价值 会 严重 下 降 。 因 此 只 在 转录 正确 的 情况 下 添加 地 址 十 分 
重要 。 如 果 机 器 学 习 系 统 认 为 它 不 太 能 像 人 一 样 正 确 地 转录 ,那么 最 好 办 法 当然 是 
让 人 来 转录 照片 。 当 然 ， 只 有 当 机 顺 学 习 系 统 能 够 大 量 降低 需要 人 工 操作 处 理 的 图 
片 时 ， 它 才 是 有 用 的 。 在 这 种 情况 下 ， 一 种 自然 的 性 能 度量 是 覆盖 〈 coverage )。 履 
盖 是 机 央 学 习 系 统 能 够 产生 响应 的 样本 所 占 的 比率 。 我 们 权衡 覆盖 和 精度 。 一 个 系 
统 可 以 通过 拒绝 处 理 任意 样本 的 方式 来 达到 100% 的 精度 ， 但 是 覆盖 降 到 了 0 色 。 对 
于 街景 任务 ， 该 项 目的 目标 是 达到 人 类 级 别 的 转录 精度 ， 同 时 保持 95% 的 覆盖 。 在 

这 项 任务 中 ， 人 类 级 别 的 性 能 是 98% 的 精度 。 

还 有 许多 其 他 的 性 能 度量 。 例 如 ， 我 们 可 以 度量 点 击 率 、 收 集 用 户 满意 度 调 查 
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等 等 。 许 多 专业 的 应 用 领域 也 有 特定 的 标准 。 
最 重要 的 是 首先 要 确定 改进 哪个 性 能 度量 ， 然 后 专心 提高 性 能 度量 。 如 果 没有 
明确 的 目标 ， 那 么 我 们 很 难 判断 机 天 学 习 系统 上 的 改动 是 否 有 所 改进 。 





11.2 ”默认 的 基准 模型 


确定 性 能 度量 和 目标 后 ， 任 何 实际 应 用 的 下 一 步 是 尽快 建立 一 个 合理 的 端 到 端 
的 系统 。 本 节 给 出 了 一 些 关 于 在 不 同情 况 下 使 用 哪 种 算法 作为 第 一 个 基准 方法 推荐 。 
在 本 节 中 ， 我 们 提供 了 关于 不 同情 况 下 使 用 哪 种 算法 作为 第 一 基准 方法 的 推荐 。 值 
得 注意 的 是 ， 深 度 学 习 研 究 进展 迅速 ， 所 以 本 书 出 版 后 很 快 可 能 会 有 更 好 的 默认 算 
法 。 

根据 问题 的 复杂 性 ， 项 目 开 始 时 可 能 无 需 使 用 深度 学 习 。 如 果 只 需 正 确 地 选择 
几 个 线性 权重 就 可 能 解决 问题 ， 那 么 项 目 可 以 开始 于 一 个 简单 的 统计 模型 ， 如 逻辑 
回归 。 

如 果 问 题 属 于 “AI 完全 ”类 的 ， 如 对 象 识别 、 语 音 识别 、 机 器 翻译 等 等 ， 那 么 
项 目 开 始 于 一 个 合适 的 深度 学 习 模 型 ， 效 果 会 比较 好 。 

首先 ， 根 据 数据 的 结构 选择 一 类 合适 的 模型 。 如 果 项 目 是 以 固定 大 小 的 向 量 作 
为 输入 的 监督 学 习 ， 那 么 可 以 使 用 全 连接 的 前 馈 网 络 。 如 果 输 入 有 已 知 的 拓扑 结构 
(例如 ， 输 入 是 图 像 )， 那 么 可 以 使 用 卷 积 网 络 。 在 这 些 情况 下 ， 刚 开始 可 以 使 用 某 
些 分 段 线性 单元 ( ReLU 或 者 其 扩展 ， 如 Leaky ReLU、PReLU 和 maxout )。 如 果 输 
入 或 输出 是 一 个 序列 ， 可 以 使 用 门 控 循 环 网 络 (LSTM 或 GRU )。 

具有 衰减 学 习 率 以 及 动量 的 SGD 是 优化 算法 一 个 合理 的 选择 (流行 的 衰减 方 
法 有 ， 误 减 到 固定 最 低 学 习 率 的 线性 衰减 、 指 数 误 减 ， 或 每 次 发 生 验 证 错误 停滞 时 
将 学 习 率 降低 2 - 10 倍 ， 这 些 衰减 方法 在 不 同 问题 上 好 坏 不 一 )。 另 一 个 非常 合理 
的 选择 是 Adam 算法 。 批 标准 化 对 优化 性 能 有 着 显著 的 影响 ， 特 别 是 对 卷 积 网 络 和 
具有 sigmoid 非 线性 函数 的 网 络 而 言 。 虽 然 在 最 初 的 基准 中 忽略 批 标准 化 是 合理 的 ， 
然而 当 优化 似乎 出 现 问题 时 ， 应 该 立刻 使 用 批 标准 化 。 

除非 训练 集 包 含 数 千 万 以 及 更 多 的 样本 ， 和 否则 项 目 应 该 在 一 开始 就 包含 一 些 
温和 的 正则 化 。 提 前 终止 也 被 普遍 采用 。Droponut 也 是 一 个 很 容易 实现 ， 且 兼容 很 
多 模型 和 训练 算法 的 出 色 正 则 化 项 。 批 标准 化 有 时 也 能 降低 泛 化 误差 ， 此 时 可 以 省 
略 Dropont 步骤 ， 因 为 用 于 标准 化 变量 的 统计 量 估 计 本 身 就 存在 噪声 。 

































































J1.3 决定 是 否 收集 更 多 数据 363 


如 果 我 们 的 任务 和 另 一 个 被 广泛 研究 的 任务 相似 ， 那 么 通过 复制 先前 研究 中 已 
知性 能 良好 的 模型 和 算法 ， 可 能 会 得 到 很 好 的 效果 。 甚 至 可 以 从 该 任务 中 复制 一 个 
训练 好 的 模型 。 例 如 ,通常 会 使 用 在 ImageNet 上 训练 好 的 卷 积 网 络 的 特征 来 解决 其 
他 计算 机 视觉 任务 (Girshick et al., 2015)。 

一 个 常见 问题 是 项 目 开 始 时 是 和 否 使 用 无 监督 学 习 ， 我 们 将 在 第 三 部 分 进一步 探 
讨 这 个 问题 。 这 个 问题 和 特定 领域 有 关 。 在 某 些 领域 ， 比 如 自然 语言 处 理 ， 能 够 大 大 
受益 于 无 监督 学 习 技术 ， 如 学 习 无 监督 词 岩 入。 在 其 他 领域 ， 如 计算 机 视觉 ,除非 是 
在 半 监 督 的 设 定 下 (标注 样 本 数量 很 少 ) (Kingma et al., 2014; Rasmnus et al1.， 2015)， 
目前 无 监督 学 习 并 没有 带 来 益处 。 如 果 应 用 所 在 环境 中 ,无 监督 学 习 被 认为 是 很 重 
要 的 , 那么 将 其 包含 在 第 一 个 端 到 端的 基准 中 。 和 否则 ， 只 有 在 解决 无 监督 问题 时 ,， 才 
会 第 一 次 尝试 时 使 用 无 监督 学 习 。 在 发 现 初 始 基准 过 拟 合 的 时 候 ， 我 们 可 以 尝试 加 
入 无 监督 学 习 。 
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在 建立 第 一 个 端 到 端的 系统 后 ， 就 可 以 度量 算法 性 能 并 决定 如 何 改进 算法 。 许 
多 机 器 学 习 新 手 都 忍 不 住 尝试 很 多 不 同 的 算法 来 进行 改进 。 然 而 ， 收 集 更 多 的 数据 
往往 比 改进 学 习 算法 要 有 用 得 多 。 

怎样 判断 是 否 要 收集 更 多 的 数据 ?首先 ， 确 定 训练 集 上 的 性 能 是 否 可 接受 。 如 
果 模型 在 训练 集 上 的 性 能 就 很 差 ， 学 习 算 法 都 不 能 在 训练 集 上 学 习 出 良好 的 模型 ， 
那么 就 没 必要 收集 更 多 的 数据 。 反 之 ， 可 以 尝试 增加 更 多 的 网 络 层 或 每 层 增加 更 多 
的 隐藏 单元 ， 以 增加 模型 的 规模 。 此 外 ， 也 可 以 尝试 调整 学 习 率 等 超 参数 的 措施 来 
改进 学 习 算法 。 如 果 更 大 的 模型 和 仔细 调试 的 优化 算法 效果 不 佳 ， 那 么 问题 可 能 源 
自 训练 数据 的 质量 。 数 据 可 能 含 太 多 噪声 ， 或 是 可 能 不 包含 预测 输出 所 需 的 正确 输 
入 。 这 意味 着 我 们 需要 重新 开始 ， 收 集 更 干净 的 数据 或 是 收集 特征 更 丰富 的 数据 集 。 

如 果 训 练 集 上 的 性 能 是 可 接受 的 , 那么 我 们 开始 度量 测试 集 上 的 性 能 。 如 果 测 斌 
集 上 的 性 能 也 是 可 以 接受 的 , 那么 就 顺利 完成 了 。 如 果 测 试 集 上 的 性 能 比 训练 集 的 要 
差 得 多 ， 那 么 收集 更 多 的 数据 是 最 有 效 的 解决 方案 之 一 。 这 时 主要 的 考虑 是 收集 更 
多 数据 的 代价 和 可 行 性 ， 其 他 方法 降低 测试 误差 的 代价 和 可 行 性 ， 和 增加 数据 数量 
能 否 显著 提升 测试 集 性 能 。 在 拥有 百 万 甚至 上 亿 用 户 的 大 型 网 络 公司 ， 收 集 大 型 数 
据 集 是 可 行 的 ， 并 且 这 样 做 的 成 本 可 能 比 其 他 方法 要 少 很 多 ， 所 以 答案 几乎 总 是 收 
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集 更 多 的 训练 数据 。 例 如 ， 收 集 大 型 标注 数据 集 是 解决 对 象 识别 问题 的 主要 因素 之 
一 。 在 其 他 情况 下 ， 如 医疗 应 用 , 收集 更 多 的 数据 可 能 代价 很 高 或 者 不 可 行 。 一 个 可 
以 替代 的 简单 方法 是 降低 模型 大 小 或 是 改进 正则 化 〈 调 整 超 参 数 ， 如 权重 衰减 系数 ， 
或 是 加 入 正则 化 策略 ， 如 Dropout )。 如 果 调 整 正则 化 超 参 数 后 ， 训 练 集 性 能 和 测试 
集 性 能 之 间 的 差距 还 是 不 可 接受 ， 那 么 收集 更 多 的 数据 是 可 取 的 。 

在 决定 是 否 收集 更 多 的 数据 时 ， 也 需要 确定 收集 多 少数 据 。 如 图 5.4 所 示 ， 绘 制 
曲线 显示 训练 集 规模 和 泛 化 误差 之 间 的 关系 是 很 有 帮助 的 。 根 据 走 势 延伸 曲线 ， 可 
以 预测 还 需要 多 少 训练 数据 来 达到 一 定 的 性 能 。 通 常 ， 加 入 总 数目 一 小 部 分 的 样本 
不 会 对 泛 化 误差 产生 显著 的 影响 。 因 此 ， 建 议 在 对 数 斥 度 上 考虑 训练 集 的 大 小 ， 例 
如 在 后 续 的 实验 中 倍增 样本 数目 。 

如 果 收 集 更 多 的 数据 是 不 可 行 的， 那么 改进 泛 化 误差 的 唯一 方法 是 改进 学 习 算 
法 本 身 。 这 属于 研究 领域 ， 并 非 对 应 用 实践 者 的 建议 。 




















11.4 选择 超 参数 


大 部 分 深度 学 习 算 法 都 有 许多 超 参数 来 控制 不 同方 面 的 算法 表现 。 有 些 超 参 
数 会 影响 算法 运行 的 时 间 和 存储 成 本 。 有 些 超 参数 会 影响 学 习 到 的 模型 质量 ， 以 及 
在 新 输入 上 推断 正确 结果 的 能 

有 两 种 选择 超 参 数 的 基本 方法 : 手动 选择 和 自动 选择 。 手 动 选择 超 参 数 需 要 了 
解 超 参 数 做 了 些 什么 ， 以 及 机 顺 学 习 模 型 如 何 才能 取得 良好 的 泛 化 。 自 动 选择 超 参 
数 算法 大 大 减少 了 解 这 些 想法 的 需要 ， 但 它们 往往 需要 更 高 的 计算 成 本 。 








11.4.1 “手动 调整 超 参数 


手动 设置 超 参数 , 我 们 必须 了 解 超 参数 、 训 练 误差 、 泛 化 误差 和 计算 资源 〈 内 存 
和 运行 时 间 ) 之 间 的 关系 。 这 需要 切实 了 解 一 个 学 习 算 法 有 效 容量 的 基础 概念 ， 如 
第 五 章 所 描述 的 。 

手动 搜索 超 参数 的 目标 通常 是 最 小 化 受 限 于 运行 时 间 和 内 存 预 算 的 泛 化 误差 。 
我 们 不 去 探讨 如 何 确定 各 种 超 参数 对 运行 时 间 和 内 存 的 影响 ， 因 为 这 高 度 依赖 于 平 
这 


听 o 





手动 搜索 超 参 数 的 主要 目标 是 调整 模型 的 有 效 容量 以 匹配 任务 的 复杂 性 。 有 
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效 容量 受 限 于 三 个 因素 : 模型 的 表示 容量 、 学 习 算 法 成 功 最 小 化 训练 模型 代价 函数 的 
能 力 以 及 代价 函数 和 训练 过 程 正则 化 模型 的 程度 。 具 有 更 多 网 络 层 ， 每 层 有 更 多 隐 
藏 单元 的 模型 具有 较 高 的 表示 能 力 一 一 能够 表示 更 复杂 的 函数 。 然 而 ， 如 果 训练 算 
法 不 能 找到 某 个 合适 的 函数 来 最 小 化 训练 代价 ， 或 是 正则 化 项 ( 如 权重 训 减 ) 排除 
了 这 些 合适 的 函数 ， 那 么 即使 模型 的 表达 能 力 较 高 ， 也 不 能 学 习 出 合适 的 函数 。 

当 泛 化 误差 以 某 个 超 参数 为 变量 ， 作 为 函数 绘制 出 来 时 ， 通 常会 表现 为 U 形 曲 
线 ， 如 图 5.3 所 示 。 在 某 个 极端 情况 下 ， 超 参数 对 应 着 低 容 量 ， 并 且 泛 化 误差 由 于 训 
练 误差 较 大 而 很 高 。 这 便 是 欠 拟 合 的 情况 。 另 一 种 极端 情况 ， 超 参数 对 应 着 高 容量 ， 
并 且 泛 化 误差 由 于 训练 误差 和 测试 误差 之 间 的 差距 较 大 而 很 高 。 最 优 的 模型 容量 位 
于 曲线 中 间 的 某 个 位 置 ， 能 够 达到 最 低 可 能 的 泛 化 误差 ， 由 某 个 中 等 的 泛 化 误差 和 
某 个 中 等 的 训练 误差 相 加 构成 。 

对 于 某 些 超 参数 ， 当 超 参数 数值 太 大 时 ,会 发 生 过 拟 合 。 例 如 中 间 层 隐 藏 单元 的 
数量 ,增加 数量 能 提高 模型 的 容量 ， 容 易 发 生 过 拟 合 。 对 于 某 些 超 参数 ， 当 超 参 数 数 
值 太 小 时 ， 也 会 发 生 过 拟 合 。 例 如 ,最 小 的 权重 衰减 系数 允许 为 零 ,， 此 时 学 习 算法 具 
有 最 大 的 有 效 容量 ， 反 而 容易 过 拟 合 。 

并 非 每 个 超 参数 都 能 对 应 着 完整 的 U 形 曲线 。 很 多 超 参数 是 离散 的 ， 如 中 间 层 
单元 数目 或 是 maxonut 单元 中 线性 元 件 的 数目 ,这 种 情况 只 能 沿 曲线 探索 一 些 点 。 有 
些 超 参数 是 二 值 的 。 通 常 这 些 超 参 数 用 来 指定 是 否 使 用 学 习 算法 中 的 一 些 可 选 部 分 ， 
如 预 处 理 步 又 减 去 均值 并 除 以 标准 差 来 标准 化 输入 特征 。 这 些 超 参数 只 能 探索 曲线 
上 的 两 点 。 其 他 一 些 超 参数 可 能 会 有 最 小 值 或 最 大 值 ， 限 制 其 探索 曲线 的 某 些 部 分 。 
例如 ,权重 衰减 系数 最 小 是 零 。 这 意味 着 ， 如 果 权 重 衰减 系数 为 零 时 模型 从 拟 合 , 那 
么 我 们 将 无 法 通过 修改 权重 衰减 系数 探索 过 拟 合 区 域 。 换 言 之 ， 有 些 超 参数 只 能 减 
少 模型 容量 。 

学 习 率 可 能 是 最 重要 的 超 参数 。 如 果 你 只 有 时 间 调 整 一 个 超 参数 ， 那 就 调整 学 
习 率 。 相 比 其 他 超 参数 , 它 以 一 种 更 复杂 的 方式 控制 模型 的 有 效 容 量 -一 当 学 习 率 适 
合 优化 问题 时 ， 模 型 的 有 效 容量 最 高 ， 此 时 学 习 率 是 正确 的 ， 既 不 是 特别 大 也 不 是 
特别 小 。 学 习 率 关于 训练 误差 具有 U 形 曲线， 如 图 11.1 所 示 。 当 学 习 率 过 大 时 ， 樟 
度 下 降 可 能 会 不 经 意 地 增加 而 非 减少 训练 误差 。 在 理想 化 的 二 次 情况 下 ， 如 果 学 习 
率 是 最 佳 值 的 两 倍 大 时 ， 会 发 生 这 种 情况 (LeCun et oL, 1998b) 。 当 学 习 率 太 小 , 训 
练 不 仅 慢 ， 还 有 可 能 永久 停留 在 一 个 很 高 的 训练 误差 。 关 于 这 种 效应 ， 我 们 知之 其 
少 (不 会 发 生 于 一 个 凸 损失 函数 中 
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图 11.1: 训练 误差 和 学 习 率 之 间 的 典型 关系 。 注 意 当 学 习 率 大 于 最 优 值 时 误差 会 有 显著 的 提升 。 此 
图 针对 固定 的 训练 时 间 ， 越 小 的 学 习 率 有 时 候 可 以 以 一 个 正比 于 学 习 率 减 小 量 的 因素 来 减 慢 训练 
过 程 。 泛 化 误差 也 会 得 到 类 似 的 曲线 ,由 于 正则 项 作用 在 学 习 率 过 大 或 过 小 处 比较 复杂 。 由 于 一 个 
糟糕 的 优化 从 某 种 程度 上 说 可 以 避免 过 拟 合 ， 即 使 是 训练 误差 相同 的 点 也 会 拥有 完全 不 同 的 泛 化 


误差 。 
























































调整 学 习 率 外 的 其 他 参数 时 ， 需 要 同时 监测 训练 误差 和 测试 误差 ， 以 判断 模型 
是 否 过 拟 合 或 欠 拟 合 ， 然 后 适当 调整 其 容量 。 

如 果 训 练 集 错 误 率 大 于 目标 错误 率 ， 那 么 只 能 增加 模型 容量 以 改进 模型 。 如 果 
没有 使 用 正则 化 ， 并 且 确 信 优 化 算法 正确 运行 ,那么 有 必要 添加 更 多 的 网 络 层 或 隐 
藏 单元 。 然 而 ， 邻 人 遗憾 的 是 ， 这 增加 了 模型 的 计算 代价 。 

如 果 测 试 集 错 误 率 大 于 目标 错误 率 ， 那 么 可 以 采取 两 个 方法 。 测 试 误 差 是 训练 
误差 和 测试 误差 之 间 差 距 与 训练 误差 的 总 和 。 寻 找 最 佳 的 测试 误差 需要 权衡 这 些 数 
值 。 当 训练 误差 较 小 〈 因 此 容量 较 大 )， 测 试 误差 主要 取决 于 训练 误差 和 测试 误差 之 
间 的 差距 时 ， 通 常 神经 网 络 效 果 最 好 。 此 时 目标 是 缩小 这 一 差距 ， 使 训练 误差 的 增 
长 速率 不 快 于 差距 减 小 的 速率 。 要 减少 这 个 差距 ， 我 们 可 以 改变 正则 化 超 参数 ， 以 
减少 有 效 的 模型 容量 ， 如 添加 Dropont 或 权重 衰减 策略 。 通 常 ， 最 佳 性 能 来 自 正 则 
化 得 很 好 的 大 规模 模型 ， 比 如 使 用 Droponut 的 神经 网 络 。 

大 部 分 超 参 数 可 以 通过 推理 其 是 否 增加 或 减少 模型 容量 来 设置 。 部 分 示例 如 
表 11.1 所 示 。 

手动 调整 超 参 数 时 ， 不 要 忘记 最 终 目 标 : 提升 测试 集 性 能 。 加 入 正则 化 只 是 实 
现 这 个 目标 的 一 种 方法 。 只 要 训练 误差 低 ， 随 时 都 可 以 通过 收集 更 多 的 训练 数据 来 
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超 参数 容 量 何 时 | 原因 注意 事项 
增加 
隐藏 单元 数量 增加 增加 隐藏 单元 数量 会 增加 模 | 几乎 模型 每 个 操作 所 需 的 时 
型 的 表示 能 力 间 和 内 存 代价 都 会 随 隐藏 单 
元 数量 的 增加 而 增加 。 
学 习 率 调 至 最 优 不 正确 的 学 习 速 率 ， 不 管 是 
太 高 还 是 太 低 都 会 由 于 优化 
失败 而 导致 代 有 效 容 量 的 模 
型 。 
卷 积 核 宽 度 增加 增加 卷 积 核 宽 度 会 增加 模型 | 较 宽 的 卷 积 核 导 致 较 窗 的 输 
的 参数 数量 。 出 尺寸 ， 除 非 使 用 隐 式 零 填 
充 减 少 此 影响 ， 和 否则 会 降低 
模型 容量 。 较 宽 的 卷 积 核 需 
要 更 多 的 内 存 存储 参数 ， 
会 增加 运行 时 间 ， 但 较 窗 的 
输出 会 降低 内 存 代 价 。 
隐 式 零 填 充 增加 在 卷 积 之 前 隐 式 添加 零 能 保 | 大 多 数 操作 的 时 间 和 内 存 代 
持 较 大 尺寸 的 表示 。 价 会 增加 。 
权重 衰减 系数 降低 降低 权重 衰减 系数 使 得 模型 
参数 可 以 自由 地 变 大 。 
Droponut 比率 降低 交 少 地 丢弃 单元 可 以 更 多 地 
让 单元 彼此 “协力 ”来 适应 训 
练 集 。 














表 11.1: 各 种 超 参 数 对 模型 容量 的 影响 。 








减少 泛 化 误差 。 实 践 中 能 够 确保 学 习 有 效 的 暴力 方法 就 是 不 断 提 高 模型 容量 和 训练 
集 的 大 小 ， 直 到 解决 问题 。 这 种 做 法 增加 了 训练 和 推断 的 计算 代价 ， 所 以 只 有 在 拥 





才 是 可 行 的 。 原 则 上 ， 这 种 做 法 可 能 会 因为 优化 难度 提高 而 失败 ， 但 


有 足够 资源 时 

对 于 许多 问题 而 言 ， 优 化 似乎 并 没有 成 为 一 个 显著 的 障 和 但， 当然， 前 提 是 选择 了 合 
适 的 模型 。 

11.4.2 ”自动 超 参 数 优 化 算法 


理想 的 学 习 算法 应 该 是 只 需 
需要 手动 调整 超 参数 。 一 些 流行 





流行 的 学 习 算法 ， 如 逻辑 














要 输入 一 个 数据 集 ， 就 可 以 输出 学 习 的 函数 ， 而 不 
回归 和 支持 向 量 机 ， 流 行 的 部 
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分 原因 是 这 类 算法 只 有 一 到 两 个 超 参 数 需要 调整 ， 它 们 也 能 表现 出 不 错 的 性 能 。 有 
些 情 况 下 ， 所 需 调 整 的 超 参数 数量 较 少 时 ， 神 经 网 络 可 以 表现 出 不 错 的 性 能 ; 但 超 
参数 数量 有 几 十 甚至 更 多 时 ， 效 果 会 提升 得 更 加 明显 。 当 使 用 者 有 一 个 很 好 的 初始 
值 ， 例 如 由 在 相同 类 型 的 应 用 和 架构 上 具有 经 验 的 人 确定 初始 值 ， 或 者 使 用 者 在 相 
似 问题 上 具有 几 个 月 其 至 几 年 的 神经 网 络 超 参数 调整 经 验 ， 那 么 手动 调整 超 参数 能 
有 很 好 的 效果 。 然 而 ， 对 于 很 多 应 用 而 言 ， 这 些 起 点 都 不 可 用 。 在 这 些 情况 下 ,自动 
算法 可 以 找到 合适 的 超 参数 。 

如 果 我 们 仔细 想 想 使 用 者 搜索 学 习 算 法 合适 超 参数 的 方式 ， 我 们 会 意识 到 这 其 
实 是 一 种 优化 : 我 们 在 试图 寻找 超 参数 来 优化 目标 函数 ， 例 如 验证 误差 ， 有 时 还 会 
有 一 些 约 束 (如 训练 时 间 ， 内 存 或 识别 时 间 的 预算 )。 因 此 ， 原 则 上 有 可 能 开发 出 封 
装 学 习 算法 的 超 参数 优化 (hyperparameter optimization ) 算法 ， 并 选择 其 超 参 数 ， 
从 而 使 用 者 不 需要 指定 学 习 算法 的 超 参数 。 令 人 遗憾 的 是 ， 超 参数 优化 算法 往往 有 
自己 的 超 参 数 ， 如 学 习 算法 的 每 个 超 参 数 应 该 被 探索 的 值 的 范围 。 然 而 , 这 些 次 级 超 
参数 通常 很 容易 选择 ， 这 是 说 ， 相 同 的 次 级 超 参数 能 够 很 多 不 同 的 问题 上 具有 良好 
的 性 能 。 


























11.4.3 ”网 格 搜索 


当 有 三 个 或 更 少 的 超 参数 时 ,常见 的 超 参数 搜索 方法 是 网 格 搜索 (grid search )。 
对 于 每 个 超 参 数 ， 使 用 者 选择 一 个 较 小 的 有 限 值 集 去 探索 。 然 后 ， 这 些 超 参数 笛 卡 
尔 乘积 得 到 一 组 组 超 参 数 ， 网 格 搜索 使 用 每 组 超 参 数 训练 模型 。 挑 选 验 证 集 误差 最 
小 的 超 参 数 作为 最 好 的 超 参 数 。 如 图 11.2 所 示 超 参数 值 的 网 络 。 

应 该 如 何 选择 搜索 集合 的 范围 呢 ? 在 超 参 数 是 数值 (有 序 ) 的 情况 下 ， 每 个 列 
表 的 最 小 和 最 大 的 元 素 可 以 基于 先前 相似 实验 的 经 验 保守 地 挑选 出 来 ， 以 确保 最 优 
解 非 常 可 能 在 所 选 范 围 内 。 通 常 ， 网 格 搜索 大 约会 在 对 数 尺 度 〈1logarithmic scale ) 
下 挑选 合适 的 值 ， 例 如 ， 一 个 学 习 率 的 取 值 集合 是 {0.1, 0.01, 10-?, 10-, 10-5， 或 
者 隐藏 单元 数目 的 取 值 集 合 {50, 100,200, 500, 1000,2000}。 

通常 重复 进行 网 格 搜索 时 ， 效 果 会 最 好 。 例 如 ,假设 我 们 在 集合 {--1,0,1} 上 网 
格 搜索 超 参 数 wc。 如 果 找 到 的 最 佳 值 是 1， 那 么 说 明 我 们 低估 了 最 优 值 a 所 在 的 范 
围 ， 应 该 改变 搜索 格 点 ， 例 如 在 集合 {1, 2, 3} 中 搜索 。 如 果 最 佳 值 是 0， 那 么 我 们 不 
妨 通 过 细 化 搜索 范围 以 改进 估计 ， 在 集合 { 一 0.1, 0,0.1} 上 进行 网 格 搜索 。 

网 格 搜索 带 来 的 一 个 明显 问题 是 , 计算 代价 会 随 着 超 参 数 数量 呈 指 数 级 增长 。 如 
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图 11.2: 网 格 搜索 和 随机 搜索 的 比较 。 为 了 方便 地 说 明 ,， 我 们 只 展示 两 个 超 参 数 的 例子 ， 但 是 我 们 
关注 的 问题 中 超 参 数 个 数 通常 会 更 多 。( 左 ) 为 了 实现 网 格 搜索 ， 我 们 为 每 个 超 参数 提供 了 一 个 值 
的 集合 。 搜 索 算 法 对 每 一 种 在 这 些 集合 的 交叉 积 中 的 超 参 数组 合 进 行 训练 。( 右 ) 为 了 实现 随机 搜 
索 , 我 们 给 联合 超 参 数 赋 予 了 一 个 概率 分 布 。 通 常 超 参 数 之 间 是 相互 独立 的 。 常 见 的 这 种 分 布 的 选 
择 是 均匀 分 布 或 者 是 对 数 均 匀 (从 对 数 均 匀 分 布 中 抽样 ， 就 是 对 从 均匀 分 布 中 抽取 的 样本 进行 指 
数 运算 ) 的 。 然 后 这 些 搜索 算法 从 联合 的 超 参 数 空间 中 采样 ， 然 后 运行 每 一 个 样本 。 网 格 搜索 和 随 
机 搜索 都 运行 了 验证 集 上 的 误差 并 返回 了 最 优 的 解 。 这 个 图 说 明了 通常 只 有 一 个 超 参数 对 结果 有 
着 重要 的 影响 。 在 这 个 例子 中 ， 只 有 水 平 轴 上 的 超 参数 对 结果 有 重要 的 作用 。 网 格 搜索 将 大 量 的 计 
算 浪 费 在 了 指数 量 级 的 对 结果 无 影响 的 超 参数 中 ， 相 比 之 下 随机 搜索 几乎 每 次 测试 都 测试 了 对 结 
果 有 影响 的 每 个 超 参数 的 独一无二 的 值 。 此 图 经 Bergstra and Bengio (2011) 允许 转载 。 

































































果 有 mm 个 超 参 数 ， 每 个 最 多 取 m 个 值 ， 那 么 训练 和 估计 所 需 的 试验 数 将 是 O(nm)。 
我 们 可 以 并 行 地 进行 实验 ， 并 且 并 行 要 求 十 分 宽松 〈 进行 不 同 搜索 的 机 器 之 间 几 乎 
没有 必要 进行 通信 )。 令 人 遗憾 的 是 ， 由 于 网 格 搜索 指数 级 增长 计算 代价 ， 即 使 是 并 
行 ， 我 们 也 无 法 提供 令 人 满意 的 搜索 规模 。 


11.4.4 ”随机 搜索 


幸运 的 是 ， 有 一 个 替代 网 格 搜索 的 方法 ,并且 编程 简单 ,使 用 更 方便 ， 能 更 快 地 
收敛 到 超 参 数 的 良好 取 值 : 随机 搜索 (Bergstra and Bengio, 2012) 。 

随机 搜索 过 程 如 下 。 首先 , 我 们 为 每 个 超 参数 定义 一 个 边缘 分 布 , 例如 , Bernoulli 
分 布 或 范畴 分 布 〈 分 别 对 应 着 二 元 超 参 数 或 离散 超 参数 )， 或 者 对 数 尺 度 上 的 均匀 分 
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布 《 对 应 着 正 实 值 超 参数 )。 例 如 ， 


1og_learning_rate 人 LU( 一 1 一 5)， (11.2) 


learning_Trate 一 1019g-*earning-rare) (11.3) 





其 中 ,w(a, 世 表示 区 间 (oa ) 上 均匀 采样 的 样本 。 类 似 地 ,1og_number_of_ hidden_units 
可 以 从 wllog(50),log(2000)) 上 采样 。 


与 网 格 搜索 不 同 ， 我 们 不 需要 离散 化 超 参数 的 值 。 这 人 允许 我 们 在 一 个 更 大 的 集 
合 上 进行 搜索 ， 而 不 产生 知 外 的 计算 代价 。 实 际 上 ， 如 图 11.2 所 示 ， 当 有 几 个 超 参 
数 对 性 能 度量 没有 显著 影响 时 ， 随 机 搜索 相 比 于 网 格 搜索 指数 级 地 高 效 。Bergstra 
and Bengio (2012) 进行 了 详细 的 研究 并 发 现 相 比 于 网 格 搜索 ， 随 机 搜索 能 够 更 快 地 
减 小 验证 集 误 差 〈 就 每 个 模型 运行 的 试验 数 而 言 )。 

与 网 格 搜索 一 样 ， 我 们 通常 会 重复 运行 不 同 版 本 的 随机 搜索 ， 以 基于 前 一 次 运 
行 的 结果 改进 下 一 次 搜索 。 

随机 搜索 能 比 网 格 搜索 更 快 地 找到 良好 超 参 数 的 原因 是 ， 没 有 浪费 的 实验 ， 不 
像 网 格 搜索 有 时 会 对 一 个 超 参数 的 两 个 不 同 值 (给 定 其 他 超 参 数值 不 变 ) 给 出 相同 
结果 。 在 网 格 搜索 中 , 其 他 超 参 数 将 在 这 两 次 实验 中 拥有 相同 的 值 , 而 在 随机 搜索 中 ，， 
它们 通常 会 具有 不 同 的 值 。 因 此 ， 如 果 这 两 个 值 的 变化 所 对 应 的 验证 集 误差 没有 明 
显 区 别 的 话 ， 网 格 搜索 没有 必要 重复 两 个 等 价 的 实验 ， 而 随机 搜索 仍然 会 对 其 他 超 
参数 进行 两 次 独立 地 探索 。 








11.4.5 “基于 模型 的 超 参数 优化 


超 参 数 搜索 问题 可 以 转化 为 一 个 优化 问题 。 决 策 变量 是 超 参 数 。 优 化 的 代价 是 超 
参数 训练 出 来 的 模型 在 验证 集 上 的 误差 。 在 简化 的 设 定 下 , 可 以 计算 验证 集 上 可 导 误 
差 轴 数 关于 超 参 数 的 梯度 ， 然 后 我 们 遵循 这 个 梯度 更 新 (Bengio et ol/., 1999; Bengio， 
2000; Maclaurin et 愉 ,，2015)。 令 人 遗憾 的 是 ， 在 大 多 数 实 际 设 定 中 ， 这 个 梯度 是 
不 可 用 的 。 这 可 能 是 因为 其 高 额 的 计算 代价 和 存储 成 本 ， 也 可 能 是 因为 验证 集 误 差 
在 超 参 数 上 本 质 上 不 可 导 ， 例 如 超 参 数 是 离散 值 的 情况 。 

为 了 弥 补 梯 度 的 缺失 ， 我 们 可 以 对 验证 集 误 差 建 模 ， 然 后 通过 优化 该 模型 来 
提出 新 的 超 参数 猜想 。 大 部 分 基于 模型 的 超 参数 搜索 算法 ， 都 是 使 用 贝 叶 斯 回归 模 
型 来 估计 每 个 超 参数 的 验证 集 误差 期 望 和 该 期 望 的 不 确定 性 。 因 此 ， 优 化 涉及 到 探 
索 (探索 高 度 不 确定 的 超 参数 ， 可 能 带 来 显著 的 效果 提升 ， 也 可 能 效果 很 差 ) 和 
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使 用 (使 用 已 经 确信 效果 不 错 的 超 参 数 一 一 通常 是 先前 见 过 的 非常 熟悉 的 超 参数 ) 
之 间 的 权衡 。 关 于 超 参 数 优化 的 最 前 沿 方法 还 包括 Spearmint (Snoek et al.，2012) ， 
TPE (Bergstra et al., 2011) 和 SMAC (Hutter et al.,， 2011)。 


目前 ， 我 们 无 法 明确 确定 ， 贝 叶 斯 超 参数 优化 是 否 是 一 个 能 够 实现 更 好 座 度 学 
习 结果 或 是 能 够 事半功倍 的 成 熟 工具 。 贝 叶 斯 超 参数 优化 有 时 表现 得 像 人 类 专家 ， 
能 够 在 有 些 问题 上 取得 很 好 的 效果 ， 但 有 时 又 会 在 某 些 问题 上 发 生 灾 难 性 的 失误 。 
看 看 它 是 否 适 用 于 一 个 特定 的 问题 是 值得 尝试 的 ， 但 目前 该 方法 还 不 够 成 熟 或 可 靠 。 
就 像 所 说 的 那样 ， 超 参数 优化 是 一 个 重要 的 研究 领域 ， 通 常 主要 受 次 度 学 习 所 需 驱 
动 ， 但 是 它 不 仅 能 贡献 于 整个 机 器 学 习 领 域 ， 还 能 贡献 于 一 般 的 工程 学 。 

大 部 分 超 参数 优化 算法 比 随机 搜索 更 复杂 ， 并 且 具 有 一 个 共同 的 缺点 ， 在 它们 
能 够 从 实验 中 提取 任何 信息 之 前 ， 它 们 需要 运行 完整 的 训练 实验 。 相 比 于 人 类 实践 
者 手动 搜索 ， 考 虑 实验 早期 可 以 收集 的 信息 量 ， 这 种 方法 是 相当 低 效 的 ， 因 为 手动 
搜索 通常 可 以 很 早 判 断 出 茶 组 超 参数 是 否 是 完全 病态 的 。Swersky et o (2014) 提出 
了 一 个 可 以 维护 多 个 实验 的 早期 版 本 算法 。 在 不 同 的 时 间 点 ， 超 参数 优化 算法 可 以 
选择 开局 一 个 新 实验 , “冻结 ”正在 和 运行 但 希望 不 大 的 实验 ， 或 是 “解冻 ”并 恢复 早 
期 被 冻结 的 ， 但 现在 根据 更 多 信息 后 又 有 希望 的 实验 。 





























11.5 “调试 策略 


当 一 个 机 器 学 习 系 统 效 果 不 好 时 ， 通 常 很 难 判 断 效 果 不 好 的 原因 是 算法 本 身 ， 
还 是 算法 实现 错误 。 由 于 各 种 原因 ， 机 天 学 习 系统 很 难 调试 。 

在 大 多 数 情况 下 ， 我 们 不 能 提前 知道 算法 的 行为 。 事 实 上 ， 使 用 机 器 学习 的 整 
个 出 发 点 是 ， 它 会 发 现 一 些 我 们 自己 无 法 发 现 的 有 用 行为 。 如 果 我 们 在 一 个 新 的 分 
类 任务 上 训练 一 个 神经 网 络 ， 它 达到 5% 的 测试 误差 ， 我 们 没 法 直接 知道 这 是 期 望 
的 结果 ， 还 是 次 优 的 结果 。 

另 一 个 难点 是 ， 大 部 分 机 器 学 习 模 型 有 多 个 自 适 应 的 部 分 。 如 果 一 个 部 分 失效 
了 ， 其 他 部 分 仍然 可 以 自 适 应 ， 并 获得 大 致 可 接受 的 性 能 。 例 如 ， 假 设 我 们 正在 训 
练 多 层 神经 网 络 ， 其 中 参数 为 权重 你 和 侦 置 pb。 进一步 假设 ， 我 们 单独 手动 实现 了 
每 个 参数 的 梯度 下 降 规 则 。 而 我 们 在 俩 置 更 新 时 犯 了 一 个 错误 : 


























吕 生 已 一 0 (11.4) 
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其 中 a 是 学 习 率 。 这 个 错误 更 新 没有 使 用 梯度 。 它 会 导致 偏 置 在 整个 学 习 中 不 断 变 
为 负 值 ， 对 于 一 个 学 习 算 法 来 说 这 显然 是 错误 的 。 然 而 只 是 检查 模型 输出 的 话 ,该 错 
误 可 能 并 不 是 显而易见 的 。 根 据 输入 的 分 布 ， 权 重 可 能 可 以 自 适 应 地 补偿 负 的 偏 置 。 

大 部 分 神经 网 络 的 调试 策略 都 是 解决 这 两 个 难题 的 一 个 或 两 个 。 我 们 可 以 设计 
一 种 足够 简单 的 情况 ， 能 够 提前 得 到 正确 结果 ， 判 断 模型 预测 是 否 与 之 相符 ; 我 们 
也 可 以 设计 一 个 测试 ， 独 立 检 查 神经 网 络 实现 的 各 个 部 分 。 

一 些 重要 的 调试 检测 如 下 所 列 。 

可 视 化 计算 中 模型 的 行为 : 当 训 练 模型 检测 图 像 中 的 对 象 时 ， 查 看 一 些 模型 检 
测 到 部 分 重 又 的 图 像 。 在 训练 语音 生成 模型 时 ， 试 听 一 些 生成 的 语音 样本 。 这 似乎 
是 显而易见 的 ， 但 在 实际 中 很 容易 只 注意 量化 性 能 度量 ， 如 准确 率 或 对 数 似 然 。 直 
接 观察 机 器 学 习 模 型 运行 其 任务 ， 有 助 于 确定 其 达到 的 量化 性 能 数据 是 否 看 上 去 合 
理 。 错 误 评 估 模 型 性 能 可 能 是 最 具 破 坏 性 的 错误 之 一 ， 因 为 它们 会 使 你 在 系统 出 问 
题 时 误 以 为 系统 运行 良好 。 

可 视 化 最 严重 的 错误 : 大 多 数 模型 能 够 输出 运行 任务 时 的 某 种 置信 和 度量。 例如 ， 
基于 softmax 函数 输出 层 的 分 类 器 给 每 个 类 分 配 一 个 概率 。 因 此 ， 分 配给 最 有 可 能 
的 类 的 概率 给 出 了 模型 在 其 分 类 决定 上 的 置信 估计 值 。 通 常 ， 相 比 于 正确 预测 的 概 
率 最 大 似 然 训 练 会 略 有 高 估 。 但 是 由 于 实际 上 模型 的 较 小 概率 不 太 可 能 对 应 着 正确 
的 标签 ， 因 此 它们 在 一 定 意义 上 还 是 有 些 用 的 。 通 过 查看 训练 集中 很 难 正 确 建 模 的 
样本 , 通常 可 以 发 现 该 数据 预 处 理 或 者 标记 方式 的 问题 。 例 如 ,街景 转录 系统 原本 有 
个 问题 是 ， 地 址 号 码 检测 系统 会 将 图 像 裁剪 得 过 于 紧密 ， 而 省 略 掉 了 一 些 数字 。 然 
后 转录 网 络 会 给 这 些 图 像 的 正确 答案 分 配 非常 低 的 概率 。 将 图 像 排 序 ， 确 定 置信 度 
最 高 的 错误 ， 显 示 系 统 的 裁剪 有 问题 。 修 改 检测 系统 裁剪 更 宽 的 图 像 ， 从 而 使 整个 
系统 获得 更 好 的 性 能 ， 但 是 转录 网 络 需要 能 够 处 理 地 址 号 码 中 位 置 和 范围 更 大 变化 
的 情况 。 

根据 训练 和 测试 误差 检测 软件 : 我 们 往往 很 难 确定 底层 软件 是 否 是 正确 实现 。 
训练 和 测试 误差 能 够 提供 一 些 线索 。 如 果 训 练 误差 较 低 ,但 是 测试 误差 较 高 , 那么 很 
有 可 能 训练 过 程 是 在 正常 运行 ， 但 模型 由 于 算法 原因 过 拟 合 了 。 另 一 种 可 能 是 ， 测 
试 误 差 没 有 被 正确 地 度量 ， 可 能 是 由 于 训练 后 保存 模型 再 重 载 去 度量 测试 集 时 出 现 
问题 ， 或 者 是 因为 测试 数据 和 训练 数据 预 处 理 的 方式 不 同 。 如 果 训 练 和 测试 误差 都 
很 高 ， 那 么 很 难 确定 是 软件 错误 ， 还 是 由 于 算法 原因 模型 从 拟 合 。 这 种 情况 需要 进 
一 步 的 测试 ， 如 下 面 所 述 。 
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拟 合 极 小 的 数据 集 : 当 训 练 集 上 有 很 大 的 误差 时 , 我 们 需要 确定 问题 是 真正 的 从 
拟 合 ， 还 是 软件 错误 。 通 党 ， 即 使 是 小 模型 也 可 以 保证 很 好 地 拟 合 一 个 足够 小 的 数 
据 集 。 例 如 ， 只 有 一 个 样本 的 分 类 数据 可 以 通过 正确 设置 输出 层 的 偏 置 来 拟 合 。 通 
常 ， 如 果 不 能 训练 一 个 分 类 需 来 正确 标注 一 个 单独 的 样本 ， 或 不 能 训练 一 个 自 编码 
器 来 成 功 地 精准 再 现 一 个 单独 的 样本 ， 或 不 能 训练 一 个 生成 模型 来 一 致 地 生成 一 个 
单独 的 样本 ， 那 么 很 有 可 能 是 由 于 软件 错误 阻止 训练 集 上 的 成 功 优化 。 此 测试 可 以 
扩展 到 只 有 少量 样本 的 小 数据 集 上 。 

比较 反 向 传播 导数 和 数值 导数 : 如 果 读 者 正在 使 用 一 个 需要 实现 梯度 计算 的 软 
件 框架 ， 或 者 在 添加 一 个 新 操作 到 求 导 库 中 ， 必 须 定 义 它 的 bprop 方法 ,那么 稼 见 
的 错误 原因 是 没 能 正确 地 实现 梯度 表达 。 验 证 这 些 求 导 正 确 性 的 一 种 方法 是 比较 实 
现 的 自动 求 导 和 通过 有 限 差 分 (finite difference ) 计算 的 导数 。 因 为 

jz 十 忆 一 人 2Z) 














1 厂 轨 = 这 一 (11.5) 
我 们 可 以 使 用 小 的 、 有 限 的 e 近似 导数 : 
PP(z) 玉 灶 区 9 (11.6) 


我 们 可 以 使 用 中 心 差 分 (centered difference ) 提高 近似 的 准确 率 : 
业 攻 下 二 了 灶 
j(z) 久 jz 十 56) jz 56) (11.7) 
扰动 大 小 e 必须 足够 大 ， 以 确保 该 扰动 不 会 由 于 数值 计算 的 有 限 精度 问题 产生 舍 人 
误差 。 

通常 ， 我 们 会 测试 向 量 值 玉 数 9 : 了 7 一 取 "” 的 梯度 或 Jacobian 矩阵 。 邻 人 遗憾 
的 是 ， 有 限 差 分 只 允许 我 们 每 次 计算 一 个 导数 。 我 们 可 以 使 用 有 限 差分 rm 次 评估 
9 的 所 有 偏 导 数 ， 也 可 以 将 该 测试 应 用 于 一 个 新 图 数 (在 函数 9 的 输入 输出 都 加 上 
随机 投影 )。 例 如 ,我 们 可 以 将 导数 实现 的 测试 用 于 函数 ALz) = wg(wz)， 其 中 允 和 
2 是 随机 向 量 。 正 确 计算 户 (z) 要 求 能 够 正确 地 通过 9 反 向 传播 ， 但 是 使 用 有 限 差 
分 能 够 高 效 地 计算 ， 因 为 只 有 一 个 输入 和 一 个 输出 。 通 常 ， 一 个 好 的 方法 是 在 多 
个 了 勾 值 和 交 值 上 重复 这 个 测试 , 可 以 减少 测试 包 略 了 垂直 于 随机 投影 的 错误 的 几率 。 
如 果 我 们 可 以 在 复数 上 进行 数值 计算 ， 那 么 使 用 复数 作为 函数 的 输入 会 有 非常 

高 效 的 数值 方法 估算 梯度 (Sdquire and Trapp, 1998)。 该 方法 基于 如 下 观察 
jz+ic)= jz) 二 ieFz) 二 O(e2)， (11.8) 
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其 中 i = V-1。 和 上 面 的 实 值 情 况 不 同 ， 这 里 不 存在 消除 影响 ， 因 为 我 们 对 /在 不 
同 点 上 计算 差分 。 因 此 我 们 可 以 使 用 很 小 的 e， 比 如 e = 10-150， 其 中 误差 O(e) 对 
所 有 实用 目标 都 是 微不足道 的 。 

监控 激活 函数 值 和 梯度 的 直方 图 : 可 视 化 神经 网 络 在 大 量 训练 欠 代 后 〈 也 许 是 
一 个 轮 ) 收集 到 的 激活 函数 值 和 梯度 的 统计 量 往往 是 有 用 的 。 人 
可 以 告诉 我 们 该 单元 是 否 饱 和 ， 或 者 它们 饱和 的 频率 如 何 。 例 如 ， 对 于 整流 器 ， 它 
们 多 久 关 一 次 ?是 否 有 单元 一 
均值 可 以 告诉 我 们 该 单元 的 饱和 程度 。 在 深度 网 络 中 ， 传 播 梯 度 的 快速 增长 或 快速 
消失 ， 可 能 会 阻碍 优化 过 程 。 最 后 ， 比 较 参 数 梯度 和 参数 的 量 级 也 是 有 帮助 的 。 正 
如 (Bottou, 2015) 所 建议 的 ， 我 们 和 希望 参数 在 一 个 小 批量 更 新 中 变化 的 幅度 是 参数 
量 值 1% 这 样 的 级 别 ， 而 不 是 50%% 或 者 0.001% (这 会 导致 参数 移动 得 太 慢 )。 也 有 
可 能 是 某 些 参数 以 良好 的 步 长 移动 ， 而 另 一 些 停 请 。 如 果 数 据 是 稀 玻 的 (比如 自然 
语言 )， 有 些 参 数 可 能 很 少 更 新 ， 检 测 它们 变化 时 应 该 记 住 这 一 点 


最 后 ， 许 多 深度 学 习 算 法 为 每 一 步 产生 的 台 例如 ， 在 第 三 
部 分 ， 我 们 将 看 到 一 些 使 用 代数 解决 优化 问题 的 近似 推 斯 算法 。 ， 这 些 可 以 通 
过 测试 它们 的 每 个 保证 来 调试 。 某 些 优 化 算法 提供 的 保证 包括 ， 外 
的 迁 代 步 中 不 会 增加 ， 某 些 变量 的 导数 在 算法 的 每 一 步 中 都 是 零 ， 所 有 变量 的 梯度 
在 收敛 时 会 变 为 零 。 通 常 ， 由 于 售 人 误差 ， 这 些 条 件 不 会 在 数字 计算 机 上 完全 成 立 ， 
因此 调试 测试 应 该 包含 一 些 容 差 参数 。 
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为 了 端 到 端的 说 明 如 何在 实践 中 应 用 我 们 的 设计 方法 论 ， 我 们 从 设计 深度 学 
习 组 件 出 发 ， 简 单 地 介绍 下 街景 转录 系统 。 显 然 , 整个 系统 的 许多 其 他 组 件 ， 如 街景 
车 、 数 据 库 设施 等 等 ， 也 是 极其 重要 的 。 


从 机 器 学 习 任务 的 视角 出 发 ， 首 先 这 个 过 程 要 采集 数据 。 街 景 车 收集 原始 数据 ， 
并 后 所 作 员 手动 提 供 标 短 。 转 录 伍 务 开始 前 有 大 量 的 数据 处 理工 作 ， 包 括 在 转录 
使 用 其 他 机 器 学 习 技 术 探测 房屋 号 码 。 

转录 项 目 开 始 于 性 能 度量 的 选择 和 对 这 些 度量 的 期 望 值 。 一 个 重要 的 总 原则 是 
na ! 有 是 高 准确 率 时 才 有 用 ， 所 以 为 这 
个 项 目 设置 高 准确 率 的 要 求 非常 重要 。 具 体 地 ， 目 标 是 达到 人 类 水 平 ，98% 的 准确 
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率 。 这 种 程度 的 准确 率 并 不 是 总 能 达到 。 为 了 达到 这 个 级 别 的 准确 率 ， 街 景 转录 系 
统 牺牲 了 覆盖 。 因 此 在 保持 准确 率 98% 的 情况 下 ， 帮 盖 成 了 这 个 项 目 优化 的 主要 性 
能 度量 。 随 着 卷 积 网 络 的 改进 ， 我 们 能 够 降低 网 络 拒绝 转录 输入 的 置信 和 度 冰 值 ， 最 
终 超出 了 覆盖 95%% 的 目标 。 

在 选择 量化 目标 后 ， 我 们 推荐 方法 的 下 一 步 是 要 快速 建立 一 个 合理 的 基准 系统 。 
对 于 视觉 任务 而 言 , 基准 系统 是 带 有 整流 线性 单元 的 卷 积 网 络 。 转 录 项 目 开 始 于 一 个 
这 样 的 模型 。 当 时 ,使 用 卷 积 网 络 输出 预测 序列 并 不 常见 。 开 始 时 , 我 们 使 用 一 个 尽 
可 能 简单 的 基准 模型 ， 该 模型 输出 层 的 第 一 个 实现 包含 ” 个 不 同 的 softmax 单元 来 
预测 ”个 字符 的 序列 。 我 们 使 用 与 训练 分 类 任务 相同 的 方式 来 训练 这 些 softmax 单 
元 ， 独 立地 训练 每 个 softmax 单元 。 

我 们 建议 反复 细 化 这 些 基 准 ， 并 测试 每 个 变化 是 否 都 有 改进 。 街 景 转录 系统 的 
第 一 个 变化 受 激励 于 覆盖 指标 的 理论 理解 和 数据 结构 。 具 体 地 ， 当 输出 序列 的 概率 
低 于 某 个 值 二 即 p(y | 四 < 苇 时 ， 网 络 拒绝 为 输入 z 分 类 。 最 初 ，p(y | m) 的 定义 是 
临时 的 ， 简 单 地 将 所 有 softmax 函 数 输出 乘 在 一 起 。 这 促使 我 们 发 展 能 够 真正 计算 
出 合理 对 数 似 然 的 特定 输出 层 和 代价 函数 。 这 种 方法 使 得 样本 拒绝 机 制 更 有 效 。 

此 时 , 歼 盖 仍 低 于 90%, 但 该 方法 没有 明显 的 理论 问题 了 。 因 此 , 我 们 的 方法 论 
建议 综合 训练 集 和 测试 集 性 能 ， 以 确定 问题 是 否 是 从 拟 合 或 过 拟 合 。 在 这 种 情况 下 ， 
训练 和 测试 集 误差 几乎 是 一 样 的 。 事 实 上 ， 这 个 项 目 进行 得 如 此 顺利 的 主要 原因 是 
有 数 以 千 万 计 的 标注 样本 数据 集 可 用 。 因 为 训练 和 测试 集 的 误差 是 如 此 相似 ， 这 表 
明 要 么 是 这 个 问题 从 拟 合 ， 要 么 是 训练 数据 的 问题 。 我 们 推荐 的 调试 策略 之 一 是 可 
视 化 模型 最 糟糕 的 错误 。 在 这 种 情况 下 ， 这 意味 着 可 视 化 不 正确 而 模型 给 了 最 高 
信 度 的 训练 集 转录 结果 。 结 果 显 示 ,， 主 要 是 输入 图 像 裁剪 得 太 紧 ， 有 些 和 地 址 相关 的 
数字 被 裁剪 操作 除去 了 。 例 如 ， 地 址 “1849” 的 图 片 可 能 裁 切 得 太 紧 ， 只 剩 下 “849”， 
是 可 见 的 。 如 果 我 们 花费 几 周 时 间 改 进 确定 裁剪 区 域 的 地 址 号 码 检测 系统 的 准确 率 ， 
或 许 也 可 以 解决 这 个 问题 。 与 之 不 同 ， 项 目 团队 采取 了 更 实际 的 办 法 ， 简 单 地 系统 
性 扩大 裁剪 区 域 的 宽度 ， 使 其 大 于 地 址 号 码 检测 系统 预测 的 区 域 宽度 。 这 种 单一 改 
变 将 转录 系统 的 覆盖 提高 了 10 个 百分点 。 

最 后 ， 性 能 提升 的 最 后 几 个 百分点 来 自 调整 超 参数 。 这 主要 包括 在 保持 一 些 计 
算 代 价 限 制 的 同时 加 大 模型 的 规模 。 因 为 训练 误差 和 测试 误差 保持 几乎 相等 ， 所 以 
明确 表明 性 能 不 足 是 由 人 欠 拟 合 造成 的 ， 数 据 集 本 身 也 存在 一 些 问 题 。 

总 体 来 说 ， 转 录 项 目 是 非常 成 功 的 ， 可 以 比 人 工 速度 更 快 、 代 价 更 低地 转录 数 



























































376 第 十 一 章 “实践 方法 论 


以 亿 计 的 地 址 。 
我 们 希望 本 章 中 介绍 的 设计 原则 能 带 来 其 他 更 多 类 似 的 成 功 。 





第 十 二 章 ”应 用 


在 本 章 中 ， 我 们 将 介绍 如 何 使 用 深度 学 习 来 解决 计算 机 视觉 、 语 音 识 别 、 自 然 
语言 处 理 以 及 其 他 商业 领域 中 的 应 用 。 首 先 我 们 将 讨论 在 许多 最 重要 的 AI 应 用 中 所 
需 的 大 规模 神经 网 络 的 实现 。 接 着 ， 我 们 将 回顾 深度 学 习 已 经 成 功 应 用 的 几 个 特定 
领域 。 尽 管 深度 学 习 的 一 个 目标 是 设计 能 够 处 理 各 种 任务 的 算法 ， 然 而 截止 目前 深 
度 学 习 的 应 用 仍然 需要 一 定 程 度 的 特 化 。 例 如 ， 计 算 机 视觉 中 的 任务 对 每 一 个 样本 
都 需要 处 理 大 量 的 输入 特征 〈 像素 )。 自然 语 言 处 理 任务 的 每 一 个 输入 特征 都 需要 对 
大 量 的 可 能 值 〈 词汇 表 中 的 词 ) 建 模 。 
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深度 学 习 的 基本 思想 基于 联结 主义 : 尽管 机 需 学 习 模型 中 单个 生物 性 的 神经 元 
或 者 说 是 单个 特征 不 是 智能 的 ， 但 是 大 量 的 神经 元 或 者 特征 作用 在 一 起 往往 能 够 表 
现 出 智能 。 我 们 必须 着 重 强调 神经 元 数量 必须 很 大 这 个 事实 。 相 比 20 世纪 80 年 代 ， 
如 今 神 经 网 络 的 精度 以 及 处 理 任 务 的 复杂 度 都 有 一 定 提 升 ， 其 中 一 个 关键 的 因素 就 
是 网 络 规模 的 巨大 提升 。 正 如 我 们 在 第 1.2.3 节 中 看 到 的 一 样 ， 在 过 去 的 三 十 年 内 ， 
网 络 规模 是 以 指数 级 的 速度 递增 的 。 然 而 如 今 的 人 工 神 经 网 络 的 规模 也 仅仅 和 昆虫 
的 神经 系统 差不多 。 

由 于 规模 的 大 小 对 于 神经 网 络 来 说 至 关 重 要 ， 因 此 深度 学 习 需 要 高 性 能 的 硬件 
设施 和 软件 实现 。 
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12.1.1 快速 的 CPU 实现 


传统 的 神经 网 络 是 用 单 台 机 需 的 CPU 来 训练 的 。 如 今 ， 这 种 做 法 通常 被 视 为 是 
不 可 取 的 。 现 在 ， 我 们 通常 使 用 GPU 或 者 许多 台 机 器 的 CPU 连接 在 一 起 进行 计 
算 。 在 使 用 这 种 昂贵 配置 之 前 ， 为 论证 CPU 无 法 承担 神经 网 络 所 需 的 巨大 计算 量 ， 
研究 者 们 付出 了 巨大 的 努力 。 

描述 如 何 实现 高 效 的 数值 CPU 代码 已 经 超出 了 本 书 的 讨论 范围 ， 但 是 我 们 在 
这 里 还 是 要 强调 通过 设计 一 些 特定 的 CPU 上 的 操作 可 以 大 大 提升 效率 。 例 如 ， 在 
2011 年 ， 最 好 的 CPU 在 训练 神经 网 络 时 使 用 定点 运算 能 够 比 浮 点 运算 跑 得 更 快 。 
通过 调整 定点 运算 的 实现 方式 ，Vanhoucke et ul. (2011) 获得 了 3 倍 于 一 个 强 浮 点 
运算 系统 的 速度 。 因 为 各 个 新 型 CPU 都 有 各 自 不 同 的 特性 ， 所 以 有 时 候 采用 浮 点 
运算 实现 会 更 快 。 一 条 重要 的 准则 就 是 ， 通 过 特殊 设计 的 数值 运算 ， 我 们 可 以 获得 
巨大 的 回报 。 除 了 选择 定点 运算 或 者 浮 点 运算 以 外 ， 其 他 的 策略 还 包括 了 如 通过 优 
化 数据 结构 避免 高 速 缓存 缺失 、 使 用 回 量 指令 等 。 如 果 模 型 规模 不 会 限制 模型 表现 
(不 会 影响 模型 精度 ) 时 ， 机 器 学 习 的 研究 者 们 一 般 忽 略 这些 实 现 的 细节 。 


























12.1.2 GPU 实现 


许多 现代 神经 网 络 的 实现 基于 图 形 处 理 器 (Graphics Processing Unit，GPU )。 
图 形 处 理 器 (GPU ) 最 初 是 为 图 形 应 用 而 开发 的 专用 硬件 组 件 。 视 频 游 戏 系统 的 
消费 市 场 刺 激 了 图 形 处 理 硬 件 的 发 展 。 它 为 视频 游戏 所 设计 的 特性 也 可 以 使 神经 网 
络 的 计算 受益 。 

视频 游戏 的 泻 染 要 求 许 多 操作 能 够 快速 并 行 地 执行 。 环 境 和 角色 模型 通过 一 系 
列 顶 点 的 3D 坐标 确定 。 为 了 将 大 量 的 3D 坐标 转化 为 2D 显示 器 上 的 坐标 ， 显 卡 必 
须 并 行 地 对 许多 顶点 执行 矩阵 乘法 与 除法 。 之 后 ， 显 卡 必 须 并 行 地 在 每 个 像素 上 的 
行 诸多 计算 , 来 确定 每 个 像素 点 的 颜色 。 在 这 两 种 情况 下 ， 计 算 都 是 非常 简单 的 ,并 
且 不 涉及 CPU 通常 遇 到 的 复杂 的 分 支 运 算 。 例 如 ,同一 个 刚体 内 的 每 个 顶点 都 会 乘 
上 相同 的 矩阵 ; 也 就 是 说 ， 不 需要 通过 if 语句 来 判断 确定 每 个 顶点 需要 乘 哪 个 矩 
阵 。 各 个 计算 过 程 之 间 也 是 完全 相互 独立 的 ， 因 此 能 够 实现 并 行 操作 。 计 算 过 程 还 
涉及 处 理 大 量 内 存 缓冲 以 及 描述 每 一 个 需要 被 泻 染 的 对 象 的 纹理 〈 颜色 模式 ) 的 位 
图 信息 。 总 的 来 说 ， 这 使 显卡 设计 为 拥有 高 度 并 行 特性 以 及 很 高 的 内 存 带宽 ， 同 时 
也 付出 了 一 些 代 价 ， 如 相 比 传统 的 CPU 更 慢 的 时 钟 速度 以 及 更 弱 的 处 理 分 支 运算 
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的 能 力 。 

与 上 述 的 实时 网 形 算法 相 比 ， 神 经 网 络 算法 所 需要 的 性 能 特性 是 相同 的 。 神 经 
网 络 算法 通常 涉及 大 量 参数 、 激 活 值 、 梯 度 值 的 缓冲 区 ,其 中 每 个 值 在 每 一 次 训练 迁 
代 中 都 要 被 完全 更 新 。 这 些 缓冲 太 大 ,会 超出 传统 的 桌面 计算 机 的 高 速 缓存 (cache) ， 
所 以 内 存 带宽 通常 会 成 为 主要 瓶颈 。 相 比 CPU，GPTU 一 个 显著 的 优势 是 其 极 高 的 内 
存 带宽 。 神 经 网 络 的 训练 算法 通常 并 不 涉及 大 量 的 分 支 运 算 与 复杂 的 控制 指令 ， 所 
以 更 适合 在 GPU 硬件 上 训练 。 由 于 神经 网 络 能 够 被 分 为 多 个 单独 的 “神经 元 ”， 并 
且 独 立 于 同一 层 内 其 他 神经 元 进行 处 理 ， 所 以 神经 网 络 可 以 从 GPU 的 并 行 特性 中 

GPU 硬件 最 初 专 为 图 形 任务 而 设计 。 随 着 时 间 的 推移 ，GPU 也 变 得 更 灵活 ， 
允许 定制 的 子 程序 处 理 转化 顶点 坐标 或 者 计算 像素 颜色 的 任务 。 原 则 上 ，GPTU 不 
要 求 这些 像 素 值 实际 基于 泻 染 任务 。 只 要 将 计算 的 输出 值 作 为 像素 值 写 人 缓冲 区 ， 
GPU 就 可 以 用 于 科学 计算 。Steinkrau et o/. (2005) 在 GPU 上 实现 了 一 个 两 层 
全 连接 的 神经 网 络 ， 并 获得 了 相对 基于 CPU 的 基准 方法 三 倍 的 加 速 。 不 和 久 以 后 ， 
Chellapilla et ol. (2006) 也 论证 了 相同 的 技术 可 以 用 来 加 速 监 督 卷 积 网 络 的 训练 。 

在 通用 GPU 发 布 以 后 ， 使 用 显卡 训练 神经 网 络 的 热度 开始 爆炸 性 地 增长 。 这 
种 通用 GPU 可 以 执行 任意 的 代码 ， 而 并 非 仅 仅 深 染 子 程序 。NVIDIA 的 CUDA 
编程 语言 使 得 我 们 可 以 用 一 种 像 C 一 样 的 语言 实现 任意 代码 。 由 于 相对 简便 的 编 
程 模型 ， 强 大 的 并 行 能 力 以 及 巨大 的 内 存 带宽 ， 通 用 GPU 为 我 们 提供 了 训练 神经 
网 络 的 理想 平台 。 在 它 发 布 以 后 不 久 ， 这 个 平台 就 迅速 被 深度 学 习 的 研究 者 们 所 采 
纳 (Raina et ol., 2009b; Ciresan et al.，2010)。 

如 何在 通用 GPU 上 写 高 效 的 代码 依然 是 一 个 难题 。 在 GPU 上 获得 良好 表现 
所 需 的 技术 与 CPU 上 的 技术 非常 不 同 。 比 如 说 ， 基 于 CPU 的 良好 代码 通常 被 设 
计 为 尽 可 能 从 高 速 缓存 中 读 取 更 多 的 信息 。 然 而 在 GPU 中 ,大 多 数 可 写 内 存 位 置 
并 不 会 被 高 速 缓存 ， 所 以 计算 某 个 值 两 次 往往 会 比 计算 一 次 然后 从 内 存 中 读 取 更 
快 。GPTU 代码 是 天 生 多 线程 的 ， 不 同 线程 之 间 必 须 仔细 协调 好 。 例 如 ， 如 果 能 够 把 
数据 级 联 (coalesced ) 起 来 ， 那 么 涉及 内 存 的 操作 一 般 会 更 快 。 当 几 个 线程 同时 需 
要 读 / 写 一 个 值 时 ， 像 这 样 的 级 联 会 作为 一 次 内 存 操作 出 现 。 不 同 的 GPU 可 能 采用 
不 同 的 级 联 读 / 写 数据 的 方式 。 通 党 来 说 ， 如 果 在 m” 个 线程 中 ， 线 程 ; 访问 的 是 第 
1 十 了 处 的 内 存 ， 其 中 了 是 2 的 某 个 寡 的 倍数 ,那么 内 存 操作 就 易于 级 联 。 具 体 的 设 
定 在 不 同 的 GPU 型 号 中 有 所 区 别 。GPTU 另 一 个 常见 的 设 定 是 使 一 个 组 中 的 所 有 线 
程 都 同时 执行 同一 指令 。 这 意味 着 GPU 难以 执行 分 支 操作 。 线 程 被 分 为 一 个 个 称 
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作 warp 的 小 组 。 在 一 个 warp 中 的 每 一 个 线程 在 每 一 个 循环 中 执行 同一 指令 ， 所 以 
当 同 一 个 warp 中 的 不 同 线程 需要 执行 不 同 的 指令 时 ， 需 要 使 用 串 行 而 非 并 行 的 方 
式 。 

由 于 实现 高 效 GPU 代码 的 困难 性 ,研究 人 员 应 该 组 织 好 他 们 的 工作 流程 ， 避 免 
对 每 一 个 新 的 模型 或 算法 都 编写 新 的 GPU 代码。 通常 来 讲 ， 人 们 会 选择 建立 一 个 包 
含 高 效 操作 (如 卷 积 和 抢 阵 乘法 ) 的 软件 库 解 决 这 个 问题 ， 然 后 再 从 库 中 调用 所 需 
要 的 操作 确定 模型 。 例 如 ， 机 器 学 习 库 Pylearn2 (Goodfellow et al., 2013e) 将 其 所 
有 的 机 需 学 习 算 法 都 通过 调用 Theano (Bergstra et ol/., 2010c; Bastien et a/.，2012a) 
和 cuda-convnet (Krizhevsky, 2010) 所 提供 的 高 性 能 操作 来 指定 。 这 种 分 解 方法 还 
可 以 简化 对 多 种 硬件 的 文 持 。 例 如 ， 同 一 个 Theano 程序 可 以 在 CPU 或 者 GPU 上 
运行 ， 而 不 需要 改变 调用 Theano 的 方式 。 其 他 库 如 Tensorfow (Abadi et o/.， 2015) 
和 Torch (Collobert et aL., 2011b) 也 提供 了 类 似 的 功能 。 


























12.1.3 ”大 规模 的 分 布 式 实现 


在 许多 情况 下 ， 单 个 机 需 的 计算 资源 是 有 限 的 。 因 此 ， 我 们 和 希望 把 训练 或 者 推 
上 断 的 任务 分 挫 到 多 个 机 器 上 进行 。 

分 布 式 的 推断 是 容易 实现 的 ， 因 为 每 一 个 输入 的 样本 都 可 以 在 单独 的 机 器 上 运 
行 。 这 也 被 称 为 数据 并 行 (data parallelism )。 

同样 地 ， 模 型 并 行 (model parallelism ) 也 是 可 行 的 ,其 中 多 个 机 器 共同 运行 一 
个 数据 点 ， 每 一 个 机 需 负 责 模型 的 一 个 部 分 。 对 于 推断 和 训练 ， 这 都 是 可 行 的 。 

在 训练 过 程 中 ， 数 据 并 行 某 种 程度 上 来 说 更 加 困难 。 对 于 随机 梯度 下 降 的 单 步 
来 说 ,我们 可 以 增加 小 批量 的 大 小 , 但 是 从 优化 性 能 的 角度 来 说 , 我 们 得 到 的 回报 通 
常 并 不 会 线性 增长 。 使 用 多 个 机 器 并 行 地 计算 多 个 梯度 下 降 步 又 是 一 个 更 好 的 选择 。 
不 幸 的 是 ,梯度 下 降 的 标准 定义 完全 是 一 个 串 行 的 过 程 : 第 上 步 的 梯度 是 第 寺 -1 步 
所 得 参数 的 函数 。 

这 个 问题 可 以 使 用 异步 随机 梯度 下 降 ( Asynchoronous Stochastic Gradient 
Descent ) (Bengio et al., 2001b; Recht et wo., 2011) 解决 。 在 这 个 方法 中 ， 几 个 处 理 
器 的 核 共 用 存 有 参数 的 内 存 。 每 一 个 核 在 无 锁 情 况 下 读 取 这 些 参数 并 计算 对 应 的 梯 
度 ， 然 后 在 无 锁 状 态 下 更 新 这 些 参数 。 由 于 一 些 核 把 其 他 的 核 所 更 新 的 参数 覆盖 了 ， 
因此 这 种 方法 减少 了 每 一 步 梯 度 下 降 所 获得 的 平均 提升 。 但 因为 更 新 步 数 的 速率 增 
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加 ， 总 体 上 还 是 加 快 了 学 习 过 程 。Dean et 咏 (2012) 率先 提出 了 多 机 器 无 锁 的 梯度 
下 降 方法 ， 其 中 参数 是 由 参数 服务 器 (Parameter server ) 管理 而 非 存储 在 共用 的 内 
存 中 。 分 布 式 的 异步 梯度 下 降 方法 保留 了 训练 深度 神经 网 络 的 基本 策略 ， 并 被 工业 
界 很 多 机 器 学 习 组 所 使 用 (Chilimbi el ol., 2014; Wu et al., 2015)。 学 术 界 的 深度 学 
习 研 究 者 们 通常 无 法 负担 那么 大 规模 的 分 布 式 学 习 系 统 ， 但 是 一 些 研 究 仍 关注 于 如 
何在 校园 环境 中 使 用 相对 廉价 的 硬件 系统 构造 分 布 式 网 络 (Coates et o/.， 2013)。 




















12.1.4 模型 压缩 


在 许多 商业 应 用 的 机 器 学 习 模 型 中 ， 一 个 时 间 和 内 存 开销 较 小 的 推 新 算法 比 一 
个 时 间 和 内 存 开销 较 小 的 训练 算法 要 更 为 重要 。 对 于 那些 不 需要 个 性 化 设计 的 应 用 
来 说 ， 我 们 只 需要 一 次 性 的 训练 模型 ， 然 后 它 就 可 以 被 成 千 上 万 的 用 户 使 用 。 在 许 
多 情况 下 ， 相 比 开 发 者 ， 终 端 用 户 的 可 用 资源 往往 更 有 限 。 例 如 ， 开 发 者 们 可 以 使 
用 巨大 的 计算 机 集群 训练 一 个 语音 识别 的 网 络 ， 然 后 将 其 部 署 到 移动 手机 上 。 

减少 推 类 所 需 开 销 的 一 个 关键 策略 是 模型 压缩 ( model compression ) (Bucilu 攻 
ef o/.,，2006)。 模 型 压缩 的 基本 思想 是 用 一 个 更 小 的 模型 取代 原始 耗 时 的 模型 ， 从 而 
使 得 用 来 存储 与 评估 所 需 的 内 存 与 运行 时 间 更 少 。 

当 原始 模型 的 规模 很 大 ， 且 我 们 需要 防止 过 拟 合 时 ， 模 型 压缩 就 可 以 起 到 作用 。 
在 许多 情况 下 ， 拥 有 最 小 泛 化 误差 的 模型 往往 是 多 个 独立 训练 而 成 的 模型 的 集成 。 
评估 所 有 7? 个 集成 成 员 的 成 本 很 高 。 有 时 候 ， 当 单个 模型 很 大 (例如 ， 如 果 它 使 
用 Droponut 正则 化 ) 时 ， 其 泛 化 能 力也 会 很 好 。 

这 些 巨大 的 模型 能 够 学 习 到 某 个 函数 岂 zj， 但 选用 的 参数 数量 超过 了 任务 所 需 
的 参数 数量 。 只 是 因为 训练 样本 数 是 有 限 的 ， 所 以 模型 的 规模 才 变 得 必要 。 只 要 我 
们 拟 合 了 这 个 函数 六 m)， 我 们 就 可 以 通过 将 三 作用 于 随机 采样 点 z 来 生成 有 无 穷 多 
训练 样本 的 训练 集 。 然 后 ， 我 们 使 用 这 些 样 本 训练 一 个 新 的 更 小 的 模型 ， 使 其 能 够 
在 这 些 点 上 拟 合 Am。 为 了 更 加 充分 地 利用 了 这 个 新 的 小 模型 的 容量 ， 最 好 从 类 似 
于 真实 测试 数据 〈 之 后 将 提供 给 模型 ) 的 分 布 中 采样 z。 这 个 过 程 可 以 通过 损坏 训 
练 样本 或 者 从 原始 训练 数据 训练 的 生成 模型 中 采样 完成 。 

此 外 ， 我 们 还 可 以 仅 在 原始 训练 数据 上 训练 一 个 更 小 的 模型 ， 但 只 是 为 了 复制 
模型 的 其 他 特征 ， 比 如 在 不 正确 的 类 上 的 后 验 分 布 (Hinton et o,， 2014, 2015)。 
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12.1.5 “动态 结构 


一 般 来 说 ， 加 速 数据 处 理 系统 的 一 种 策略 是 构造 一 个 系统 ， 这 个 系统 用 动态 
结构 (dynamic structure ) 描述 图 中 处 理 输入 的 所 需 计 算 过 程 。 在 给 定 一 个 输入 的 
情况 中 ， 数 据 处 理 系统 可 以 动态 地 决定 运行 神经 网 络 系统 的 哪 一 部 分 。 单 个 神经 网 
络 内 部 同样 也 存在 动态 结构 ， 给 定 输 入 信息 ,决定 特征 〈 隐藏 单元 ) 哪 一 部 分 用 于 
计算 。 这 种 神经 网 络 中 的 动态 结构 有 时 被 称 为 条 件 计 算 ( conditional computation ) 
(Bengio, 2013; Bengio et wL.,， 2013b)。 由 于 模型 结构 许多 部 分 可 能 只 跟 输 入 的 一 小 部 
分 有 关 ， 只 计算 那些 需要 的 特征 可 以 起 到 加 速 的 目的 。 

动态 结构 计算 是 一 种 基础 的 计算 机 科学 方法 ,广泛 应 用 于 软件 工程 项 目 。 应 用 
于 神经 网 络 的 最 简单 的 动态 结构 基于 决定 神经 网 络 〈 或 者 其 他 机 器 学 习 模型 ) 中 的 
哪些 子 集 需 要 应 用 于 特定 的 输入 。 

在 分 类 器 中 加 速 推 新 的 可 行 策 略 是 使 用 级 联 (cascade ) 的 分 类 器 。 当 目标 是 检 
测 罕 见 对 象 (或 事件 ) 是 否 存在 时 ,可 以 应 用 级 联 策略 。 要 确定 对 象 是 否 存在 , 我 们 
必须 使 用 具有 高 容量 、 运 行 成 本 高 的 复杂 分 类 器 。 然 而 ， 因 为 对 象 是 罕见 的 , 我 们 通 
稼 可 以 使 用 更 少 的 计算 拒绝 不 包含 对 象 的 输入 。 在 这 些 情 况 下 ， 我 们 可 以 训练 一 序 
列 分 类 器 。 序 列 中 的 第 一 个 分 类 器 具有 低 容 量 ， 训 练 为 具有 高 召回 率 。 换 句 话说 ,他 
们 被 训练 为 确保 对 象 存 在 时 ， 我 们 不 会 错误 地 拒绝 输入 。 最 后 一 个 分 类 器 被 训练 为 
具有 高 精度 。 在 测试 时 ， 我 们 按照 顺序 运行 分 类 器 进行 推 上 新 ， 一 旦 级 联 中 的 任何 一 
个 拒绝 它 ， 就 选择 抛弃 。 总 的 来 说 ， 这 人 允许 我 们 使 用 高 容量 模型 以 较 高 的 置信 和 度 验 
证 对 象 的 存在 ， 而 不 是 强制 我 们 为 每 个 样本 付出 完全 推断 的 成 本 。 有 两 种 不 同 的 方 
式 可 以 使 得 级 联 实现 高 容量 。 一 种 方法 是 使 级 联 中 靠 后 的 成 员 单 独 具 有 高 容量 。 在 
这 种 情况 下 ， 由 于 系统 中 的 一 些 个 体 成 员 具 有 高 容量 ， 因 此 系统 作为 一 个 整体 显然 
也 具有 高 容量 。 还 可 以 使 用 另 一 种 级 联 ， 其 中 每 个 单独 的 模型 具有 低 容 量 ， 但 是 由 
于 许多 小 型 模型 的 组 合 ， 整 个 系统 具有 高 容量 。Viola and Jones (2001) 使 用 级 联 的 
增强 决策 树 实现 了 适合 在 手持 数字 相机 中 使 用 的 快速 并 且 和 鲁 棒 的 面部 检测 需 。 本 质 
上 上， 它们 的 分 类 需 使 用 滑 动 窗口 方法 来 定位 面部 。 分 类 需 会 检查 许多 的 窗口 ， 如 果 
这 些 窗 口内 不 包含 面部 则 被 拒绝 。 级 联 的 另 一 个 版 本 使 用 早期 模型 来 实现 一 种 硬 注 
意 力 机 制 : 级 联 的 先 中 成员 定 位 对 象 ， 并 且 级 联 的 后 续 成 员 在 给 定 对 象 位 置 的 情况 
下 执行 进一步 处 理 。 例 如 ，Google 使 用 两 步 级 联 从 街景 视图 图 像 中 转换 地 址 编号 : 
首先 使 用 一 个 机 需 学 习 模 型 查找 地 址 编号 ， 然 后 使 用 另 一 个 机 器 学 习 模 型 将 其 转录 
(Goodfellow et aoL., 2014d)。 
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决策 树 本 身 是 动态 结构 的 一 个 例子 ， 因 为 树 中 的 每 个 节点 决定 应 该 使 用 哪个 子 
树 来 评估 输入 。 一 个 结合 深度 学 习 和 动态 结构 的 简单 方法 是 训练 一 个 决策 树 ， 其 中 
每 个 节点 使 用 神经 网 络 做 出 决策 (Guo and Gelfand, 1992) ， 虽 然 这 种 方法 没有 实现 
加 速 推断 计算 的 目标 。 

类 似 的 ， 我 们 可 以 使 用 称 为 选 通 器 〈gater ) 的 神经 网 络 来 选择 在 给 定 当 前 输入 
的 情况 下 将 使 用 几 个 专家 网 络 ( expert network ) 中 的 哪 一 个 来 计算 输出 。 这 个 想法 
的 第 一 个 版 本 被 称 为 专家 混合 体 (mixture of experts ) (Nowlan, 1990; Jacobs et al.， 
1991)， 其 中 选 通 需 为 每 个 专家 输出 一 个 概率 或 权重 〈 通过 非 线性 的 softmax 函数 获 
得 )， 并 且 最 终 输出 由 各 个 专家 输出 的 加 权 组 合 获得 。 在 这 种 情况 下 ， 使 用 选 通 器 不 
会 降低 计算 成 本 ， 但 如 果 每 个 样本 的 选 通 器 选择 单个 专家 ， 我 们 就 会 获得 一 个 特殊 
的 硬 专家 混合 体 (hard mixture of experts ) (Collobert et ol., 2001, 2002)， 这 可 以 
加 速 推 新 和 训 练 。 当 选 通 器 决策 的 数量 很 小 时 ， 这 个 策略 效果 会 很 好 ， 因 为 它 不 是 
组 合 的 。 但 是 当 我 们 想 要 选择 不 同 的 单元 或 参数 子 集 时 ， 不 可 能 使 用 “ 软 开 关 ?”， 
为 它 需 要 枚 举 ( 和 计算 输出 ) 所 有 的 选 通 器 配置 。 为 了 解决 这 个 问题 ， 许 多 工作 探 
索 了 几 种 方法 来 训练 组 合 的 选 通 器 。Bengio et al. (2013b) 提出 使 用 选 通 器 概率 梯度 
的 若干 估计 器 ， 而 Bacon et ol. (2015); Bengio et al!. (2015a) 使 用 强化 学 习 技术 ( 策 
略 梯 度 ( policy gradient ) ) 来 学 习 一 种 条 件 的 Droponut 形式 (作用 于 隐藏 单元 块 )， 
减少 了 实际 的 计算 成 本 ， 而 不 会 对 近似 的 质量 产生 负面 影响 。 

另 一 种 动态 结构 是 开关 ， 其 中 隐藏 单元 可 以 根据 具体 情况 从 不 同 单元 接收 输 
和 人 入。 这 种 动态 路 由 方法 可 以 理解 为 注意 力 机 制 (attention mechanism ) (Olshausen 
ef al.,， 1993)。 目 前 为 止 ， 硬 性 开关 的 使 用 在 大 规模 应 用 中 还 没有 被 证 明 是 有 效 的 。 
较为 先进 的 方法 一 般 采 用 对 许多 可 能 的 输入 使 用 加 权 平 均 ， 因 此 不 能 完全 得 到 动态 
结构 所 带 来 的 计算 益处 。 先 进 的 注意 力 机 制 将 在 第 12.4.5.1 节 中 描述 。 

使 用 动态 结构 化 系统 的 主要 障 但 是 由 于 系统 针对 不 同 输入 的 不 同 代 码 分 支 导 致 
的 并 行 度 降 低 。 这 意味 着 网 络 中 只 有 很 少 的 操作 可 以 被 描述 为 对 样本 小 批量 的 天 阵 
乘法 或 批量 卷 积 。 我 们 可 以 写 更 多 的 专用 子 程序 ， 用 不 同 的 核对 样本 做 卷 积 ， 或 者 
通过 不 同 的 权重 列 来 乘 以 设计 矩阵 的 每 一 行 。 不 幸 的 是 ， 这 些 专 用 的 子 程序 难以 高 
效 地 实现 。 由 于 缺乏 高 速 缓存 的 一 致 性 ，CPU 实现 会 十 分 缓慢 。 此 外 ， 由 于 缺乏 级 
联 的 内 存 操作 以 及 warp 成 员 使 用 不 同 分 支 时 需要 串 行 化 操作 ，GPTU 的 实现 也 会 很 
慢 。 在 一 些 情况 下 ， 我 们 可 以 通过 将 样本 分 成 组 ， 并 且 都 采用 相同 的 分 文 并 且 同 时 
处 理 这 些 样本 组 的 方式 来 缓解 这 些 问 题 。 在 离线 环境 中 ， 这 是 最 小 化 处 理 固定 量 相 
本 所 需 时 间 的 一 项 可 接受 的 策略 。 然 而 在 实时 系统 中 ， 样 本 必须 连续 处 理 ， 对 工作 
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负载 进行 分 区 可 能 会 导致 负载 均衡 问题 。 例 如 ， 如 果 我 们 分 配 一 台 机 融 处 理 级 联 中 
的 第 一 步 ， 另 一 台 机 融 处 理 级 联 中 的 最 后 一 步 ， 那 么 第 一 台 机 器 将 倾向 于 过 载 ， 最 
后 一 个 机 器 倾向 于 从 载 。 如 果 每 个 机 咒 被 分 配 以 实现 神经 决策 树 的 不 同 节点 ， 也 会 
出 现 类 似 的 问题 。 


12.1.6 ”深度 网 络 的 专用 硬件 实现 


自从 早期 的 神经 网 络 研究 以 来 ， 硬 件 设 计 者 已 经 致力 于 可 以 加 速 神经 网 络 算法 
的 训练 和 /或 推断 的 专用 人 硬件 实现 。 读 考 可 以 查看 早期 和 更 近 的 专用 硬件 深度 网 络 的 
评论 (Lindsey and Lindblad, 1994; Beiu et aol., 2003; Misra and Saha, 2010)。 

不 同形 式 的 专用 便 件 (Graf and Jackel, 1989; Mead and Ismail 2012; Kim et al.,， 
2009; Pham et al., 2012; Chen et ol., 2014b,a) 的 研究 已 经 持续 了 好 几 十 年 ， 比 如 专 
用 集成 电路 (application-specific integrated circuit， ASIC ) 的 数字 (基于 数字 的 二 
进 制 表示 )， 模 拟 (Graf and Jackel, 1989; Mead and Ismail 2012) ( 基于 以 电压 或 电 
流 表 示 连 续 值 的 物理 实现 ) 和 混合 实现 〈 组 合 数字 和 模拟 组 件 )。 近 年 来 更 灵活 的 现 
场 可 编程 门 阵列 (field programmable gated array, FEFPGA ) 实现 (其 中 电路 的 具体 
细节 可 以 在 制造 完成 后 写 人 芯片 ) 也 得 到 了 长 足 发 展 。 

虽然 CPU 和 GPU 上 的 软件 实现 通常 使 用 32 或 64 位 的 精度 来 表示 浮 点 数 , 但 
是 长 期 以 来 使 用 较 低 的 精度 在 更 短 的 时 间 内 完成 推 朵 也 是 可 行 的 (Holt and Baker， 
1991; Holi and Hwang，1993; Presley and Hagsgard，1994; Simard and Graf，1994; 
Wawrzynek et ol., 1996; Savich et oL, 2007)。 这 已 成 为 近年 来 更 迫切 的 问题 ,因为 深 
度 学 习 在 工业 产品 中 越 来 越 受 欢迎 ， 并 且 由 于 更 快 的 硬件 产生 的 巨大 影响 已 经 通 
过 GPU 的 使 用 得 到 了 证 明 。 激 励 当 前 对 深度 网 络 专用 人 硬件 研究 的 另 一 个 因素 是 单 
个 CPU 或 GPU 核心 的 进展 速度 已 经 减 慢 ， 并 且 最 近 计 算 速 度 的 改进 来 自 于 核心 的 
并 行 化 (无论 CPU 还 是 GPU )。 这 与 20 地 纪 90 年 代 的 情况 (上 一 个 神经 网 络 时 
代 ) 的 不 同 之 处 在 于 ， 神 经 网 络 的 硬件 实现 〈 从 开始 到 芯片 可 用 可 能 需要 两 年 ) 跟 
不 上 快速 进展 和 价格 低廉 的 通用 CPU 的 脚步 。 因 此 ,在 针对 诸如 手机 等 低 功 率 设备 
开发 新 的 硬件 设计 , 并 且 想 要 用 于 深度 学 习 的 一 般 公 众 应 用 (例如 ， 具 有 语音 、 计 算 
机 视觉 或 自然 语言 功能 的 设施 ) 等 时 ， 研 究 专用 便 件 能 够 进一步 推动 其 发 展 。 

最 近 对 基于 反 向 传播 神经 网 络 的 低 精度 实现 的 工作 (Vanhoucke et aol.，2011; 
Courbariaux et al., 2015; Gupta et al., 2015) 表明 ，8 和 16 位 之 间 的 精度 足以 满足 
使 用 或 训练 基于 反 回 传播 的 深度 神经 网 络 的 要 求 。 显 而 易 见 的 是 ， 在 训练 期 间 需 要 
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比 在 推 产 时 更 高 的 精度 ， 并 且 数 字 某 些 形 式 的 动态 定点 表示 能 够 减少 每 个 数 需要 的 
存储 空间 。 传 统 的 定点 数 被 限制 在 了 一 个 固定 范围 之 内 〈 其 对 应 于 浮 点 表示 中 的 给 
定 指数 )。 而 动态 定点 表示 在 一 组 数字 (例如 一 个 层 中 的 所 有 权重 ) 之 间 共 享 该 范 
围 。 使 用 定点 代替 序 点 表示 并 且 每 个 数 使 用 较 少 的 比特 能 够 减少 执行 乘法 所 需 的 硬 
件 表面 积 、 功 率 需 求 和 计算 时 间 。 而 乘法 已 经 是 使 用 或 训练 反 向 传播 的 现代 深度 网 
络 中 要 求 最 高 的 操作 。 








12.2 ”计算 机 视 党 


一 直 以 来 ， 计 算 机 视觉 就 是 深度 学 习 应 用 中 几 个 最 活跃 的 研究 方向 之 一 。 因 为 
视觉 是 一 个 对 人 类 以 及 许多 动物 毫 不 费力 ， 但 对 计算 机 却 充满 挑战 的 任务 (Ballard 
ef aol.， 1983)。 深 度 学 习 中 许多 流行 的 标准 基准 任务 包括 对 象 识别 以 及 光学 字符 识别 。 

计算 机 视觉 是 一 个 非常 广阔 的 发 展 领域 ， 其 中 包括 多 种 多 样 的 处 理 图 片 的 方式 
以 及 应 用 方向 。 计 算 机 视觉 的 应 用 广泛 : 从 复 现 人 类 视觉 能 力 〈 比如 识别 人 脸 ) 到 创 
造 全 新 的 视觉 能 力 。 举 个 后 者 的 例子 ， 近 期 一 个 新 的 计算 机 视觉 应 用 是 从 视频 中 可 
视 物 体 的 振动 中 识别 相应 的 声波 (Davis et o, 2014)。 大 多 数 计算 机 视觉 领域 的 深度 
学 习 研 究 未 曾 关注 过 这 样 一 个 奇异 的 应 用 ， 它 扩展 了 图 像 的 范围 ， 而 不 是 仅仅 关注 
于 人 工 智能 中 较 小 的 核心 目标 一 一 复制 人 类 的 能 力 。 无 论 是 报告 图 像 中 存在 哪个 物 
体 ， 还 是 给 图 像 中 每 个 对 象 周围 添加 注释 性 的 边框 ， 或 从 图 像 中 转录 符号 序列 ， 或 
给 图 像 中 的 每 个 像素 标记 它 所 属 对 象 的 标识 ， 大 多 数 计算 机 视觉 中 的 深度 学 习 往 往 
用 于 对 象 识别 或 者 某 种 形式 的 检测 。 由 于 生成 模型 已 经 是 次 度 学 习 研 究 的 指导 原则 ， 
因此 还 有 大 量 图 像 合 成 工作 使 用 了 这 度 模型 。 尽 管 图 像 合成 〈“ 无 中 生 有 ”) 通常 不 
包括 在 计算 机 视觉 内 ， 但 是 能 够 进行 图 像 合成 的 模型 通常 用 于 图 像 恢复 ， 即 修复 图 
像 中 的 缺陷 或 从 图 像 中 移 除 对 象 这 样 的 计算 机 视觉 任务 。 






































12.2.1 预 处 理 


由 于 原始 输入 往往 以 深度 学 习 架 构 难 以 表示 的 形式 出 现 ， 许 多 应 用 领域 需要 复 
杂 精 细 的 预 处理 。 计 算 机 视觉 通常 只 需要 相对 少 的 这 种 预 处 理 。 岁 像 应 该 被 标准 化 ， 
从 而 使 得 它们 的 像素 都 在 相同 并 且 合 理 的 范围 内 ， 比 如 [0,H] 或 者 一 11。 将 [0,1H 
中 的 图 像 与 [0,255] 中 的 图 像 混合 通常 会 导致 失败 。 将 图 像 格式 化 为 具有 相同 的 比 
例 严格 上 说 是 唯一 一 种 必要 的 预 处 理 。 许 多 计算 机 视觉 架构 需要 标准 尺寸 的 图 像 ， 
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因此 必须 裁剪 或 缩放 图 像 以 适应 该 太 寸 。 然 而 ， 严 格 地 说 即使 是 这 种 重新 调整 比例 
的 操作 并 不 总 是 必要 的 。 一 些 卷 积 模型 接受 可 变 大 小 的 输入 并 动态 地 调整 它们 的 池 
化 区 域 大 小 以 保持 输出 大 小 恒定 (Waibel et ol., 1989)。 其 他 卷 积 模型 具有 可 变 大 小 
的 输出 ， 其 尺 才 随 输 入 自动 缩放 ， 例 如 对 图 像 中 的 每 个 像素 进行 去 品 或 标注 的 模型 
(Hadsell et al., 2007)。 

数据 集 增 强 可 以 被 看 作 是 一 种 只 对 训练 集 做 预 处 理 的 方式 。 数 据 集 增 强 是 减少 
大 多 数 计算 机 视觉 模型 泛 化 误差 的 一 种 极 好 方法 。 在 测试 时 可 用 的 一 个 相关 想法 是 
将 同一 输入 的 许多 不 同 版 本 传 给 模型 (例如 , 在 稍微 不 同 的 位 置 处 裁剪 的 相同 图 像 )， 
并 且 在 模型 的 不 同 实例 上 决定 模型 的 输出 。 后 一 个 想法 可 以 被 理解 为 集成 方法 ， 并 
且 有 助 于 减少 泛 化 误差 。 
其 他 种 类 的 预 处 理 需 要 同时 应 用 于 训练 集 和 测试 集 ， 其 目的 是 将 每 个 样本 置 于 
更 规范 的 形式 ,以 便 减 少 模型 需要 考虑 的 变化 量 。 减少 数据 中 的 变化 量 既 能 够 减少 泛 
化 误差 ， 也 能 够 减 小 拟 合 训练 集 所 需 模 型 的 大 小 。 更 简单 的 任务 可 以 通过 更 小 的 模 
型 来 解决 ， 而 更 简单 的 解决 方案 泛 化 能 力 一 般 更 好 。 这 种 类 型 的 预 处 理 通 稼 被 设计 
为 去 除 输入 数据 中 的 某 种 可 变性 ， 这 对 于 人 工 设计 者 来 说 是 容易 描述 的 ， 并 且 人 工 
设计 者 能 够 保证 不 受到 任务 影响 。 当 使 用 大 型 数据 集 和 大 型 模型 训练 时 ， 这 种 预 处 
理 通常 是 不 必要 的 ， 并 且 最 好 只 是 让 模型 学 习 哪 些 变化 性 应 该 保留 。 例 如 ， 用 于 分 
类 ImageNet 的 AlexNet 系统 仅 具 有 一 个 预 处 理 步 又 : 对 每 个 像素 减 去 训练 样本 的 
平均 值 (Krizhevsky et ol., 2012b)。 



































12.2.1.1 ”对比度 归 一 化 





在 许多 任务 中 ， 对 比 度 是 能 够 安全 移 除 的 最 为 明显 的 变化 源 之 一 。 简 单 地 说 ， 
对 比 度 指 的 是 图 像 中 亮 像素 和 暑 像素 之 间 差 异 的 大 小 。 量 化 图 像 对 比 度 有 许多 方式 。 
在 深度 学 习 中 ， 对 比 度 通常 指 的 是 图 像 或 图 像 区 域 中 像素 的 标准 差 。 假 设 我 们 有 一 
个 张 量 表示 的 图 像 X < Rrxex3， 其 中 Xia 表示 第 ; 行 第 7 列 红色 的 强度 ，Xja 对 
应 的 是 绿色 的 强度 ，X:js 对 应 的 是 蓝 色 的 强度 。 然 后 整个 图 像 的 对 比 度 可 以 表示 如 
下 : 
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， 元 闷 oo 一 (12.1) 
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其 中 X 是 整个 图 片 的 平均 强度 ， 满 足 


3 
>》 Xi (12.2) 


1 一 1 7 一 1 一 1 


又 工 
37c 

全 局 对 比 度 归 一 化 (Global contrast normalization，GCN ) 旨 在 通过 从 每 个 图 
像 中 减 去 其 平均 值 ， 然 后 重新 缩放 其 使 得 其 像素 上 的 标准 差 等 于 某 个 常数 s 来 防止 
图 像 具 有 变化 的 对 比 度 。 这 种 方法 非常 复杂 ， 因 为 没有 缩放 因子 可 以 改变 零 对 比 度 
图 像 (所 有 像素 都 具有 相等 强度 的 图 像 ) 的 对 比 度 。 具 有 非常 低 但 非 零 对 比 度 的 图 
像 通常 几乎 没有 信息 内 容 。 在 这 种 情况 下 除 以 真实 标准 差 通 常 仅 能 放大 传 感 锅 噪声 
或 压缩 伪 像 。 这 种 现象 启发 我 们 引入 一 个 小 的 正 的 正则 化 参数 入 来 平衡 估计 的 标准 
差 。 或 者 ,我们 至 少 可 以 约束 分 母 使 其 大 于 等 于 e。 给 定 一 个 输入 图 像 X， 全 局 对 比 
度 归 一 化 产生 输出 图 像 X ， 和 定义 为 


Xe) 呈 
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Xi 一 X 
S 
六 丰 3 YV 
max{e VA 十 志 工 -HI- DOGmr 一 为 9 


从 大 图 像 中 剪 切 感 兴趣 的 对 象 所 组 成 的 数据 集 不 可 能 包含 任何 强度 几乎 恒定 的 
图 像 。 在 这 些 情况 下 ， 通 过 设置 A = 0 来 忽略 小 分 母 问题 是 安全 的 ， 并 且 在 非常 罕 
见 的 情况 下 为 了 避免 除 以 0， 通 过 将 e 设置 为 一 个 非常 小 的 值 比如 说 10-8。 这 也 
是 Goodfellow et al. (2013c) 在 CIFAR-10 数据 集 上 所 使 用 的 方法 。 随 机 剪裁 的 小 图 
像 更 可 能 具有 几乎 恒定 的 强度 ， 使 得 激进 的 正则 化 更 有 用 。 在 处 理 从 CIFAR-10 数 
据 中 随机 选择 的 小 区 域 时 ，Coates et al. (2011) 使 用 e= 0, 入 = 10。 


尺度 参数 s 通常 可 以 设置 为 1 (如 Coates et al. (2011) 所 采用 的 )， 或 选择 使 所 
有 样本 上 每 个 像素 的 标准 差 接近 1 ( 如 Goodfellow et al!. (2013c) 所 采用 的 )。 

式 (12.3) 中 的 标准 差 仅 仅 是 对 图 片 二 范 数 的 重新 缩放 ( 假设 图 像 的 平均 值 已 经 
被 移 除 )。 我 们 更 偏向 于 根据 标准 差 而 不 是 到 范 数 来 定义 GCN ,因为 标准 差 包 括 除 
以 像素 数量 这 一 步 ， 从 而 基于 标准 差 的 GCN 能 够 使 用 与 图 像 大 小 无 关 的 固定 的 s。 
然而 ， 观 察 到 72 范 数 与 标准 差 成 比例 ， 这 符合 我 们 的 直觉 。 我 们 可 以 把 GCN 理解 
成 到 球 壳 的 一 种 映射 。 图 12.1 对 此 有 所 说 明 。 这 可 能 是 一 个 有 用 的 属性 ， 因 为 神经 
网 络 往往 更 好 地 响应 空间 方向 ， 而 不 是 精确 的 位 置 。 响 应 相同 方向 上 的 多 个 距离 需 
要 具有 共 线 权重 向 量 但 具有 不 同 偏 置 的 隐藏 单元 。 这 样 的 情况 对 于 学 习 算 法 来 说 可 
能 是 困难 的 。 此 外 ,许多 浅 层 的 图 模型 把 多 个 分 离 的 模式 表示 在 一 条 线 上 会 出 现 问 
题 。GCN 采用 一 个 样本 一 个 方向 :而 不 是 不 同 的 方向 和 距离 来 避免 这 些 问 题 。 

1: 译 者 : 所 有 样本 相似 的 距离 


(12.3) 
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Raw input GCN, 入 = 一 0 GICN, 入 一 10-? 
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2Z0 20 Z0 


图 12.1: GCN 将 样本 投影 到 一 个 球 上 。{( 左 ) 原始 的 输入 数据 可 能 拥有 任意 的 范 数 。( 中 儿 = 0 时 
候 的 GCN 可 以 完美 地 将 所 有 的 非 零 样 本 投影 到 球 上 。 这 里 我 们 令 s = 1,，e = 10 一 。 由 于 我 们 
使 用 的 GCN 是 基于 归 一 化 标准 差 而 不 是 克 范 数 ， 所 得 到 的 球 并 不 是 单位 球 。( 右 ) > 0 的 正则 
化 GCN 将 样本 投影 到 球 上 ， 但 是 并 没有 完全 地 丢弃 其 范 数 中 变化 。s 和 e 的 取 值 与 之 前 一 样 。 



































与 直觉 相反 的 是 ， 存 在 被 称 为 sphering 的 预 处 理 操作 ， 并 且 它 不 同 于 GCN。 
sphering 并 不 会 使 数据 位 于 球形 壳 上 ， 而 是 将 主 成 分 重新 缩放 以 具有 相等 方差 ， 
使 得 PCA 使 用 的 多 变量 正 态 分 布 具有 球形 等 高 线 。sphering 通常 被 称 为 白化 
( whitening )。 

全 局 对 比 度 归 一 化 常常 不 能 突出 我 们 想 要 突出 的 图 像 特 征 ， 例 如 边缘 和 和 角 。 如 
果 我 们 有 一 个 场景 ， 包 含 了 一 个 大 的 黑暗 区 域 和 一 个 大 的 明亮 的 区 域 (例如 一 个 城 
市 广场 有 一 半 的 区 域 处 于 建筑 物 的 阴影 之 中 )， 则 全 局 对 比 度 归 一 化 将 确保 暗 区 域 的 
亮度 与 亮 区 域 的 亮度 之 间 存 在 大 的 差异 。 然 而 ， 它 不 能 确保 暗 区 内 的 边缘 突出 。 

这 催生 了 局 部 对 比 度 归 一 化 (local contrast normalization, LCN ) 。 局 部 对 比 
度 归 一 化 确保 对 比 度 在 每 个 小 窗口 上 被 归 一 化 ， 而 不 是 作为 整体 在 图 像 上 被 归 一 化 。 
关于 局 部 对 比 度 归 一 化 和 全 局 对 比 度 归 一 化 的 比较 可 以 参考 网 12.2 。 

局 部 对 比 度 归 一 化 的 各 种 定义 都 是 可 行 的 。 在 所 有 情况 下 , 我 们 可 以 通过 减 去 邻 
近 像素 的 平均 值 并 除 以 邻近 像素 的 标准 差 来 修改 每 个 像素 。 在 一 些 情况 下 ， 要 计算 
以 当前 要 修改 的 像素 为 中 心 的 矩形 窗口 中 所 有 像素 的 平均 值 和 标准 差 (Pinto et wo， 
2008)。 在 其 他 情况 下 ， 使 用 的 则 是 以 要 修改 的 像素 为 中 心 的 高 斯 权重 的 加 权 平 均 和 
加 权 标 准 差 。 在 彩色 图 像 的 情况 下 ， 一 些 策略 单独 处 理 不 同 的 颜色 通道 ， 而 其 他 策 
略 组 合 来 自 不 同 通道 的 信息 以 使 每 个 像素 归 一 化 (Sermanet et al.,， 2012)。 
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Input image GCN LCN 


图 12.2: 全 局 对 比 度 归 一 化 和 局 部 对 比 度 归 一 化 的 比较 。 直 观 上 说 ,全 局 对 比 度 归 一 化 的 效果 很 巧 
妙 。 它 使 得 所 有 的 图 片 的 太 度 都 差不多 ， 这 减轻 了 学 习 算法 处 理 多 个 太 度 的 负担 。 局 部 对 比 度 归 
一 化 更 多 地 改变 了 图 像 ， 丢 弃 了 所 有 相同 强度 的 区 域 。 这 使 得 模型 能 够 只 关注 于 边缘 。 较 好 的 纹 
理 区 域 ， 如 第 二 行 的 屋子 ， 可 能 会 由 于 归 一 化 核 的 过 高 带宽 而 丢失 一 些 细 闻 。 








局 部 对 比 度 归 一 化 通常 可 以 通过 使 用 可 分 离 卷 积 〈 参 考 第 9.8 市 ) 来 计算 特征 映 
射 的 局 部 平均 值 和 局 部 标准 差 ， 然 后 在 不 同 的 特征 映射 上 使 用 逐 元 素 的 减法 和 除法 。 

局 部 对 比 度 归 一 化 是 可 微分 的 操作 ， 并 且 还 可 以 作为 一 种 非 线性 作用 应 用 于 网 
络 隐藏 层 ， 以 及 应 用 于 输入 的 预 处 理 操作 。 

与 全 局 对 比 度 归 一 化 一 样 ， 我 们 通常 需要 正则 化 局 部 对 比 度 归 一 化 来 避免 出 现 
除 以 零 的 情况 。 事 实 上 ， 因 为 局 部 对 比 度 归 一 化 通常 作用 于 较 小 的 窗口 ， 所 以 正则 
化 更 加 重要 。 较 小 的 窗口 更 可 能 包含 彼此 几乎 相同 的 值 ， 因 此 更 可 能 具有 零 标 准 差 。 











12.2.2 ”数据 集 增 强 


如 第 7.4 节 中 讲 到 的 一 样 ， 我 们 很 容易 通过 增加 训练 集 的 额外 副本 来 增加 训练 
集 的 大 小 ， 进 而 改进 分 类 天 的 泛 化 能 力 。 这 些 额外 副本 可 以 通过 对 原始 图 像 进行 一 
些 变 化 来 生成 ， 但 是 并 不 改变 其 类 别 。 对 象 识别 这 个 分 类 任务 特别 适合 于 这 种 形式 
的 数据 集 增强 ， 因 为 类 别 信息 对 于 许多 变换 是 不 变 的 ， 而 我 们 可 以 简单 地 对 输入 应 
用 诸多 几何 变换 。 如 前 所 述 ， 分 类 器 可 以 受益 于 随机 转换 或 者 旋转 ， 某 些 情 况 下 输 
入 的 翻转 可 以 增强 数据 集 。 在 专门 的 计算 机 视觉 应 用 中 ， 存 在 很 多 更 高 级 的 用 以 数 
据 集 增 强 的 变换 。 这 些 方案 包括 图 像 中 颜色 的 随机 扰动 (Krizhevsky et ,2012b)， 
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以 及 对 输入 的 非 线 性 几何 变形 (LeCun et o/L.,， 1998c)。 





12.3 ”语音 识别 














语音 识别 任务 在 于 将 一 段 包 括 了 自然 语言 发 音 的 声学 信号 投影 到 对 应 说 话 人 的 
词 序列 上 。 令 素 = (zz2) .zt)) 表示 语音 的 输入 向 量 (传统 做 法 以 20ms 为 
一 帧 分 制 信号 )。 许 多 语音 识别 的 系统 通过 特殊 的 手工 设计 方法 预 处 理 输入 信号 ， 从 
而 提取 特征 ,但 是 某 些 深 度 学 习 系统 (Jaitly and Hinton, 2011) 直接 从 原始 输入 中 学 
习 特 征 。 令 y = (加 ,加 ,yw) 表示 目标 的 输出 序列 〈 通 党 是 一 个 词 或 者 字符 的 序 
列 )。 自 动 语 音 识 别 ( Automatic Speech Recognition, ASR. ) 任务 指 的 是 构造 一 个 函 
数 房 sR， 使 得 它 能 够 在 给 定 声 学 序列 天 的 情况 下 计算 最 有 可 能 的 语言 序列 y: 








JsR(X) 一 argmaxP(y| 入 = 已)， (12.4) 
Y 





其 中 已 * 是 给 定 输 入 值 筷 时 对 应 目标 y 的 真实 条 件 分 布 。 

从 20 世纪 80 年 代 直 到 约 2009-2012 年 ， 最 先进 的 语音 识别 系统 是 隐 马 尔 可 夫 
模型 (Hidden Markov Model, HMM ) 和 高 斯 混合 模型 ( Gaussian Mixture Model， 
GMM ) 的 结合 。GMM 对 声学 特征 和 音素 ( phoneme ) 之 间 的 关系 建 模 (Babhl et al,， 
1987)，HMM 对 音素 序列 建 模 。GMM-HMM 模型 将 语音 信和 号 视 作 由 如 下 过 程 生成 : 
首先 ， 一 个 HMM 生成 了 一 个 音素 的 序列 以 及 离散 的 子音 素 状 态 ( 比如 每 一 个 音 
素 的 开始 ， 中 间 ， 结 尾 ) ， 然 后 GMM 把 每 一 个 离散 的 状态 转化 为 一 个 简短 的 声 
音信 号 。 尽 管 直到 最 近 GMM-HMM 一 直 在 ASR 中 占据 主导 地 位 ， 语 音 识 别 仍然 
是 神经 网 络 所 成 功 应 用 的 第 一 个 领域 。 从 20 世纪 80 年 代 末 期 到 90 年 代 初 期 ， 大 
量 语音 识别 系统 使 用 了 神经 网 络 (Bourlard and Wellekens, 1989; Waibel et a/.，1989; 
Robinson and Fallside, 1991; Bengio et ol/.,， 1991, 1992; Konig et ol/., 1996)。 当 时 ,， 基 
于 神经 网 络 的 ASR 的 表现 和 GMM-HMM 系统 的 表现 差不多 。 比 如 说 ，Robinson 
and Fallside (1991) 在 TIMIT 数据 集 (Garofolo et 史 , 1993) (有 39 个 区 分 的 音素 ) 
上 达到 了 26% 的 音素 错误 率 ， 这 个 结果 优 于 或 者 说 是 可 以 与 基于 HMM 的 结果 相 
比 。 从 那 时 起 ，TIMIT 成 为 了 音素 识别 的 一 个 基准 数据 集 ， 在 语音 识别 中 的 作用 就 
和 MNIST 在 对 象 识 别 中 的 作用 差不多 。 然 而 ， 由 于 语音 识别 软件 系统 中 复杂 的 工 
程 因 素 以 及 在 基于 GMM-HMM 的 系统 中 已 经 付出 的 巨大 努力 ， 工 业界 并 没有 迫切 
转向 神经 网 络 的 需求 。 结 果 ， 直 到 21 世纪 00 年 代 示 期， 学 术 界 和 工业 界 的 研究 者 
们 更 多 的 是 用 神经 网 络 为 GMM-HMM 系统 学 习 一 些 额外 的 特征 。 
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之 后 ， 随 着 更 大 更 深 的 模型 以 及 更 大 的 数据 集 的 出 现 ， 通 过 使 用 神经 网 络 代 
替 GMM 来 实现 将 声学 特征 转化 为 音素 (或 者 子音 素 状态 ) 的 过 程 可 以 大 大 地 提高 
识别 的 精度 。 从 2009 年 开始 ， 语 音 识别 的 研究 者 们 将 一 种 无 监督 学 习 的 深度 学 习 方 
法 应 用 于 语音 识别 。 这 种 深度 学 习 方法 基于 训练 一 个 被 称 作 是 受 限 玻 尔 效 曼 机 的 无 
向 概率 模型 ， 从 而 对 输入 数据 建 模 。 受 限 玻 尔 效 曼 机 将 会 在 第 三 部 分 中 描述 。 为 了 完 
成 语音 识别 任务 ， 无 监督 的 预 训练 被 用 来 构造 一 个 深度 前 馈 网 络 ， 这 个 神经 网 络 每 
一 层 都 是 通过 训练 受 限 玻 尔 效 曼 机 来 初始 化 的 。 这 些 网 络 的 输入 是 从 一 个 固定 规格 
的 输入 窗 〈 以 当前 帧 为 中 心 ) 的 谱 声 学 表示 抽取 ， 预 测 了 当前 帧 所 对 应 的 HMM 状 
态 的 条 件 概 率 。 训 练 一 个 这 样 的 神经 网 络 能 够 可 以 显著 提高 在 TIMIT 数据 集 上 的 
识别 率 (Mohamed et al., 2009, 2012a) ， 并 将 音素 级 别 的 错误 率 从 大 约 26 吕 降 到 了 
20.7 狼 。 关 于 这 个 模型 成 功 原因 的 详细 分 析 可 以 参考 Mohamed et o/. (2012b)。 对 于 
基本 的 电话 识别 工作 流程 的 一 个 扩展 工作 是 添加 说 话 人 自 适 应 相关 特征 (Mohamed 
et al.， 2011) 的 方法 ， 这 可 以 进一步 地 降低 错误 率 。 紧 接着 的 工作 则 将 结构 从 音素 识 
别 (TIMIT 所 主要 关注 的 ) 转向 了 大 规模 词汇 语音 识别 (Dahl et ol.,， 2012)， 这 不 仅 
包含 了 识别 音素 ， 还 包括 了 识别 大 规模 词汇 的 序列 。 语 音 识别 上 的 深度 网 络 从 最 初 
的 使 用 受 限 玻 尔 效 曼 机 进行 预 训 练 发 展 到 了 使 用 诸如 整流 线性 单元 和 Droponut 这 样 
的 技术 (Zeiler et ol., 2013; Dahl et wL., 2013)。 从 那 时 开始 ， 工 业界 的 几 个 语音 研究 
组 开始 寻求 与 学 术 圈 的 研究 者 之 间 的 合作 。Hinton et o/L. (2012a) 描述 了 这 些 合作 所 
带 来 的 突破 性 进展 ， 这 些 技术 现在 被 广泛 应 用 在 产品 中 ， 比 如 移动 手机 端 。 

随后 ， 当 研究 组 使 用 了 越 来 越 大 的 带 标签 的 数据 集 ， 加 入 了 各 种 初始 化 ,训练 
方法 以 及 调试 深度 神经 网 络 的 结构 之 后 ， 他 们 发 现 这 种 无 监督 的 预 训 练 方式 是 没有 
必要 的 ， 或 者 说 不 能 带 来 任何 显著 的 改进 。 

用 语音 识别 中 词 错误 率 来 衡量 ， 在 语音 识别 性 能 上 的 这 些 突破 是 史无前例 的 

(大 约 30 兄 的 提高 )。 在 这 之 前 的 长 达 十 年 左右 的 时 间 内 ， 尽 管 数据 集 的 规模 是 随时 
间 增 长 的 ( 见 Deng and Yu (2014) 的 图 2.4 )， 但 基于 GMM-HMM 的 系统 的 传统 技 
术 已 经 停滞 不 前 了 。 这 也 导致 了 语音 识别 领域 快速 地 转向 深度 学 习 的 研究 。 在 大 约 
的 两 年 时 间 内 ， 工 业界 的 大 多 数 的 语音 识别 产品 都 包含 了 深度 神经 网 络 ， 这 种 成 功 
也 激发 了 ASR 领 域 对 深度 学 习 算 法 和 结构 的 一 波 新 的 研究 浪潮 ， 并 且 影 响 至 今 。 
其 中 的 一 个 创新 点 是 卷 积 网 络 的 应 用 (Sainath et ol., 2013)。 卷 积 网 络 在 时 域 与 
频 域 上 复 用 了 权重 ， 改 进 了 之 前 的 仅 在 时 域 上 使 用 重复 权 值 的 时 延 神经 网 络 。 这 种 
新 的 二 维 的 卷 积 模型 并 不 是 将 输入 的 频谱 当 作 一 个 长 的 向 量 ， 而 是 当成 是 一 个 图 像 ， 
其 中 一 个 轴 对 应 着 时 间 ， 另 一 个 轴 对 应 的 是 谱 分 量 的 频率 。 
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完全 抛弃 HMM 并 转向 研究 端 到 端的 深度 学 习 语 音 识 别 系统 是 至 今 仍 然 活跃 的 
另 一 个 重要 推动 。 这 个 领域 第 一 个 主要 的 突破 是 Graves et al. (2013) ， 其 中 训练 了 一 
个 深度 的 长 短期 记忆 循环 神经 网 络 ( 见 第 10.10 节 ), 使 用 了 帧 一 音素 排列 的 MAP 推 
呆 ， 就 像 LeCun et al. (1998c) 以 及 CTC 框架 (Graves et al，2006; Graves，2012) 
中 一 样 。 一 个 深度 循环 神经 网 络 (Graves et al.,，2013) 每 个 时 间 步 的 各 层 都 有 状态 
变量 ， 两 种 展开 图 的 方式 导致 两 种 不 同 次 度 : 一 种 是 善 通 的 根据 层 的 堆 释 衡量 的 次 
度 ， 另 一 种 根据 时 间 展 开 衡量 的 深度 。 这 个 工作 把 TIMIT 数据 集 上 音素 的 错误 率 
记录 降 到 了 的 新 低 17.7 色 。 关 于 应 用 于 其 他 领域 的 深度 循环 神经 网 络 的 变种 可 以 参 
考 Pascanu et ao/. (2014a); Chung et al. (2014)。 

另 一 个 端 到 端的 深度 学 习 语 音 识 别 方向 的 最 新 方法 是 让 系统 学 习 如 何 利用 语音 
(Phonetic ) 层级 的 信息 “排列 ”声学 (acoustic ) 层级 的 信息 (Chorowski et al1., 2014; 
Lu et al.，2015)。 


























12.4 自然 语言 处 理 


自然 语言 处 理 ( Natural Language Processing ) 让 计算 机 能 够 使 用 人 类 语言 ,， 例 
如 英语 或 法 语 。 为 了 让 简单 的 程序 能 够 高 效 明确 地 解析 ， 计 算 机 程序 通常 读 取 和 发 
出 特殊 化 的 语言 。 而 自然 的 语言 通常 是 模糊 的 ， 并 且 可 能 不 遵循 形式 的 描述 。 自 然 
语言 处 理 中 的 应 用 如 机 器 翻译 ， 学 习 者 需要 读 取 一 种 人 类 语言 的 句子 ， 并 用 另 一 种 
人 类 语言 发 出 等 同 的 句子 。 许 多 NLP 应 用 程序 基于 语言 模型 ， 语 言 模型 定义 了 关于 
自然 语言 中 的 字 、 字 符 或 字 节 序列 的 概率 分 布 。 

与 本 章 讨论 的 其 他 应 用 一 样 ， 非 常 通用 的 神经 网 络 技术 可 以 成 功 地 应 用 于 自然 
语言 处 理 。 然 而 , 为 了 实现 卓越 的 性 能 并 扩展 到 大 型 应 用 程序 ,一些 领域 特定 的 策略 
也 很 重要 。 为 了 构建 自然 语言 的 有 效 模型 ， 通 销 必 须 使 用 专门 处 理 序 列 数据 的 技术 。 
在 很 多 情况 下 ， 我 们 将 自然 语言 视 为 一 系列 词 ， 而 不 是 单个 字符 或 字 节 序列 。 因 为 
可 能 的 词 总 数 非常 大 ， 基 于 词 的 语言 模型 必须 在 极 高 维度 和 稀 琉 的 离散 空间 上 操作 。 
为 使 这 种 空间 上 的 模型 在 计算 和 统计 意义 上 都 高 效 ， 研 究 者 已 经 开发 了 几 种 策略 。 



































12.4.1 7-gram 





语言 模型 (language model ) 定义 了 自然 语言 中 标记 序列 的 概率 分 布 。 根 据 模型 
的 设计 ,标记 可 以 是 词 、 字 符 、 甚 至 是 字 节 。 标 记 总 是 离散 的 实体 。 最 早 成 功 的 语言 
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模型 基于 固定 长 度 序列 的 标记 模型 ， 称 为 mgram。 一 个 mgram 是 一 个 包含 风 个 标 
记 的 序列 。 

基于 mgram 的 模型 定义 一 个 条 件 概率 一 一 给 定 前 允 一 工 个 标记 后 的 第 m” 个 标 
记 的 条 件 概率 。 该 模型 使 用 这 些 条 件 分 布 的 乘积 定义 较 长 序列 的 概率 分 布 : 


户 ( 人 (全 和 二 ] 己 (zr | Zn 2 1). (12.5) 
区 
这 个 分 解 可 以 由 概率 的 链 式 法 则 证 明 。 初 始 序列 P(zi,…,zn_i) 的 概率 分 布 可 以 通 
过 带 有 较 小 ? 值 的 不 同 模型 建 模 。 
训练 -gram 模型 是 简单 的 ， 因 为 最 大 似 然 估 计 可 以 通过 简单 地 统计 每 个 可 能 
的 mgram 在 训练 集中 出 现 的 次 数 来 获得 。 几 十 年 来 ， 基 于 mgram 的 模型 都 是 统 
计 语 言 模型 的 核心 模块 (Jelinek and Mercer, 1980; Katz, 1987; Chen and Goodman， 
1999)。 
对 于 小 的 冯 值 ,模型 有 特定 的 名 称 : m = 1 称 为 一 元 语法 (unigram ), 见 = 2 称 
为 二 元 语法 (bigram ) 及 妹 = 3 称 为 三 元 语法 (trigram )。 这 些 名 称 源 于 相应 数字 
的 拉丁 前 缀 和 和 希腊 后 缀 “gram”， 分 别 表示 所 写 之 物 。 
通常 我 们 同时 训练 w-gram 模型 和 郊 一 1 gram 模型 。 这 使 得 下 式 可 以 简单 地 通 
过 查找 两 个 存储 的 概率 来 计算 。 

(Zi nl 和 ) 21) 
(入 7 看 生生 这 ,Zit_1) 
为 了 在 尸 , 中 精确 地 再 现 推 新 ， 我 们 训练 已 + 时 必须 省 略 每 个 序列 最 后 一 个 字符 。 
举 个 例子 ， 我 们 演示 三 元 模型 如 何 计算 句子 “THE D0G RAN AWAY 的 概率 。 句 
子 的 第 一 个 词 不 能 通过 上 述 条 件 概 率 的 公式 计算 ， 因 为 句子 的 开头 没有 上 下 文 。 取 
而 代 之 , 在 句子 的 开头 我 们 必须 使 用 词 的 边缘 概率 。 因 此 我 们 计算 刀 (THE D0G RAN)。 
最 后 ， 可 以 使 用 条 件 分 布 P(AWAY | D0G RAN) ( 典型 情况 ) 来 预测 最 后 一 个 词 。 将 这 
与 式 (12.6) 放 在 一 起 ， 我 们 得 到 ; 


(12.6) 





己 (z | Vt 一 十 1) ,Zt_1) = 

















P(THE D0G RAN AWAY) = 肠 (THE D0G RAN) 忆 3(D0G RAN AWAY)/ 忆 (D0G RAN)， (12.7) 


mn-gram 模型 最 大 似 然 的 基本 限制 是 ， 在 许多 情况 下 从 训练 集 计 数 估计 得 到 的 
忆 很 可 能 为 零 (即使 元 组 (zt 2) 可 能 出 现在 测试 集中 )。 这 可 能 会 导致 
两 种 不 同 的 灾难 性 后 果 。 当 已 _: 为 零 时 ， 该 比率 是 未 定义 的 ， 因 此 模型 甚至 不 能 
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产生 有 意义 的 输出 。 当 已 _; 非 零 而 已 为 零 时 ， 测 试 样本 的 对 数 似 然 为 -co。 为 
避免 这 种 灾难 性 的 后 果 ， 大 多 数 mgram 模型 采用 某 种 形式 的 平滑 (smoothing ) 。 
平滑 技术 将 概率 质量 从 观察 到 的 元 组 转移 到 类 似 的 未 观察 到 的 元 组 。 见 Chen and 
Goodman (1999) 的 综述 和 实验 对 比 。 其 中 一 种 基本 技术 基于 向 所 有 可 能 的 下 一 个 符 
号 值 添加 非 零 概 率 质 量 。 这 个 方法 可 以 被 证 明 是 ， 计 数 参数 具有 均匀 或 Dirichlet 先 
验 的 贝 叶 斯 推断 。 另 一 个 非常 流行 的 想法 是 包含 高 阶 和 低 阶 mw-gram 模型 的 混合 模 
型 ， 其 中 高 阶 模 型 提供 更 多 的 容量 ， 而 低 阶 模型 尽 可 能 地 避免 零 计 数 。 如 果 上 下 文 
Zi ZL1 的 频率 太 小 而 不 能 使 用 高 阶 模型 ， 回 退 方 法 (back=-off methods) 就 
查找 低 阶 mw-gram 。 更 正式 地 说 ， 它 们 通过 上 下 文 zw,2Z 1 估计 上 的 分 
布 ， 并 增加 大 直到 找到 足够 可 靠 的 估计 。 

经 典 的 w-gram 模型 特别 容易 引起 维 数 灾难 。 因 为 存在 |V|” 可 能 的 wgram， 而 
且 |yV| 通常 很 大 。 即 使 有 大 量 训 练 数 据 和 适当 的 骨 ， 大 多 数 mw-gram 也 不 会 出 现在 训 
练 集 中 。 经 典 mw-gram 模型 的 一 种 观点 是 执行 最 近邻 查询 。 换 名 话说 ， 它 可 以 被 视 为 
局 部 非 参 数 预测 器 ， 类 似 于 太 最 近邻 。 这 些 极端 局 部 预测 器 面临 的 统计 问题 已 经 在 
第 5.11.2 节 中 描述 过 。 语 言 模型 的 问题 甚至 比 普通 模型 更 严重 ， 因 为 任何 两 个 不 同 的 
词 在 one-hot 回 量 空间 中 的 距离 彼此 相同 。 因 此 ， 难 以 大 量 利 用 来 自任 意 “ 邻 居 ” 的 
信息 一 一 只 有 重复 相同 上 下 文 的 训练 样本 对 局 部 泛 化 有 用 。 为 了 克服 这 些 问题 ， 语 
言 模型 必须 能 够 在 一 个 词 和 其 他 语义 相似 的 词 之 间 共 享 知 识 。 

为 了 提高 -gram 模型 的 统计 效率 ， 基 于 类 的 语言 模型 (class-based language 
model) (Brown et ol., 1992; Ney and Kneser, 1993; Niesler et al.,， 1998) 引入 词类 别 
的 概念 ， 然 后 属于 同一 类 别 的 词 共享 词 之 间 的 统计 强度 。 这 个 想法 使 用 了 聚 类 算法 ， 
基于 它们 与 其 他 词 同 时 出 现 的 频率 ， 将 该 组 词 分 成 集群 或 类 。 随 后 ， 模 型 可 以 在 条 
件 竖 杠 的 右 侧 使 用 词类 ID 而 不 是 单个 词 ID。 混 合 〈 或 回 退 ) 词 模型 和 类 模型 的 复 
合 模型 也 是 可 能 的 。 尽 管 词 类 提供 了 在 序列 之 间 泛 化 的 方式 ， 但 其 中 一 些 词 被 相同 
类 的 另 一 个 替换 ， 导 致 该 表示 丢失 了 很 多 信息 。 





























12.4.2 ”神经 语言 模型 


神经 语言 模型 (Neural Language Model, NLM ) 是 一 类 用 来 克服 维 数 灾 难 的 话 
言 模型 ， 它 使 用 词 的 分 布 式 表示 对 自然 语言 序列 建 模 (Bengio et 以, 2001b)。 不 同 于 
基于 类 的 mw-gram 模型 ， 神 经 语言 模型 在 能 够 识别 两 个 相似 的 词 ， 并 且 不 丧失 将 每 个 
词 编码 为 彼此 不 同 的 能 力 。 神 经 语言 模型 共享 一 个 词 (及 其 上 下 文 ) 和 其 他 类 似 词 
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(和 上 下 文 之 间 ) 的 统计 强度 。 模 型 为 每 个 词 学 习 的 分 布 式 表 示 ， 人 允许 模型 处 理 具 有 
类 似 共同 特征 的 词 来 实现 这 种 共享 。 例 如 ， 如 果 词 dog 和 词 cat 映射 到 具有 许多 属 
生 的 表示 ,， 则 包含 词 cat 的 句子 可 以 告知 模型 对 包含 词 dog 的 句子 做 出 预测 ， 反 之 
亦 然 。 因 为 这 样 的 属性 很 多 ， 所 以 存在 许多 泛 化 的 方式 ， 可 以 将 信息 从 每 个 训练 语 
名 传递 到 指数 数量 的 语义 相关 语句 。 维 数 灾难 需要 模型 泛 化 到 指数 多 的 句子 〈 指数 
相对 句子 长 度 而 言 )。 该 模型 通过 将 每 个 训练 句子 与 指数 数量 的 类 似 句 子 相关 联 克服 
这 个 问题 。 

我 们 有 时 将 这 些 词 表示 称 为 词 内 入 (word embedding )。 在 这 个 解释 下 , 我 们 将 
原始 符号 视 为 维度 等 于 词 表 大 小 的 空间 中 的 点 。 词 表示 将 这 些 点 做 和 到 较 低 维 的 特 
征 空间 中 。 在 原始 空间 中 ， 每 个 词 由 一 个 one-hot 向 量 表示 ， 因 此 每 对 词 彼此 之 间 的 
欧 氏 距 离 都 是 V2。 在 嵌入 空间 中 ， 经 常 出 现在 类 似 上 下 文 (或 共享 由 模型 学 习 的 一 
些 “ 特 征 ” 的 任何 词 对 ) 中 的 词 彼此 接近 。 这 通常 导致 具有 相似 含义 的 词 变 得 邻近 。 
图 12.3 放 大 了 学 到 的 词 嵌入 空间 的 特定 区 域 ， 我 们 可 以 看 到 语义 上 相似 的 词 如 何 映 
射 到 彼此 接近 的 表示 。 
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图 12.3: 从 神经 机 器 翻译 模型 获得 的 词 戏 入 的 二 维 可 视 化 (Bahdanau et ol., 2015)。 此 图 在 语义 相 
关 词 的 特定 区 域 放 大 ， 它 们 具有 彼此 接近 的 坐 入 向 量 。 国 家 在 左 图 ,数字 在 右 图 。 注 意 ， 这 些 能 和 
是 为 了 可 视 化 才 表示 为 2 维 。 在 实际 应 用 中 ， 骨 入 通常 具有 更 高 的 维度 并 且 可 以 同时 捕获 词 之 间 
多 种 相似 性 。 















































其 他 领域 的 神经 网 络 也 可 以 定义 衣 和 人。 例如 ， 卷 积 网 络 的 隐藏 层 提 供 “图 像 赂 
入 ”。 因 为 自然 语言 最 初 不 在 实 值 向 量 空 间 上 ， 所 以 NLP 从 业者 通常 对 能 入 的 这 个 
想法 更 感 兴趣 。 隐 藏 层 在 表示 数据 的 方式 上 提供 了 更 质变 的 戏剧 性 变化 。 
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使 用 分 布 式 表示 来 改进 自然 语言 处 理 模型 的 基本 思想 不 必 局 限于 神经 网 络 。 它 
还 可 以 用 于 图 模型 ， 其 中 分 布 式 表 示 是 多 个 潜 变 量 的 形式 (Mnih and Hinton, 2007)。 





12.4.3 “高 维 输出 


在 许多 自然 语言 应 用 中 ,我 们 通 党 希望 我 们 的 模型 产生 词 〈 而 不 是 字符 ) 作为 
输出 的 基本 单位 。 对 于 大 词汇 表 ,， 由 于 词汇 量 很 大 , 在 词 的 选择 上 表示 输出 分 布 的 计 
算 成 本 可 能 非常 高 。 在 许多 应 用 中 ，V 包含 数 十 万 词 。 表 示 这 种 分 布 的 朴素 方法 是 
应 用 一 个 仿 射 变换 ， 将 隐藏 表示 转换 到 输出 空间 ， 然 后 应 用 softmax 函数 。 假 设 我 
们 的 词汇 表 V 大 小 为 |Y|。 因 为 其 输出 维 数 为 |V|， 描 述 该 仿 射 变换 线性 分 量 的 权重 
和 矩阵 非常 大 。 这 造成 了 表示 该 矩阵 的 高 存储 成 本 ， 以 及 与 之 相 乘 的 高 计算 成 本 。 
为 softmax 要 在 所 有 |V| 输出 之 间 归 一 化 ， 所 以 在 训练 时 以 及 测试 时 执行 全 和 矩阵 乘 
法 是 必要 的 一 一 我 们 不 能 仅 计 算 与 正确 输出 的 权重 向 量 的 点 积 。 因 此 ， 输 出 层 的 高 
计算 成 本 在 训练 期 间 〈 计算 似 然 性 及 其 梯度 ) 和 测试 期 间 〈 计算 所 有 或 所 选 词 的 概 
率 ) 都 有 出 现 。 对 于 专门 的 损失 函数 ， 可 以 有 效 地 计算 梯度 (Vincent et alL.，2015)， 
但 是 应 用 于 传统 softmax 输出 层 的 标准 交叉 箭 损失 时 会 出 现 许 多 困难 。 

假设 疡 是 用 于 预测 输出 概率 g 的 顶部 隐藏 层 。 如 果 我 们 使 用 学 到 的 权重 全 和 
学 到 的 俩 置 上 参数 化 从 刀 到 尹 的 变换 ， 则 仿 射 softmax 输出 层 执行 以 下 计算 : 

















0 一方 十 》 5 WE 人， (12.8) 


了 
Q 


| B 
如 果 瑚 包含 个 元 素 ， 则 上 述 操作 复杂 度 是 O(|ylma)。 在 m 为 数 千 和 |V| 数 十 
万 的 情况 下 ， 这 个 操作 占据 了 神经 语言 模型 的 大 多 数 计算 。 


旋 (12.9) 


12.4.3.1 “使 用 短 列表 





第 一 个 神经 语言 模型 (Bengio et 以 , 2001b, 2003) 通过 将 词汇 量 限 制 为 10,000 
或 20,000 来 减轻 大 词汇 表 上 softmax 的 高 成 本 。Schwenk and Gauvain (2002) 和 
Schwenk (2007) 在 这 种 方法 的 基础 上 建立 新 的 方式 ， 将 词汇 表 Y 分 为 最 常见 词汇 
(由 神经 网 络 处 理 ) 的 短 列 表 ( shortlist ) 工 和 较 稀 有 词汇 的 尾 列表 T= YNL ( 由 六 - 
gram 模 型 处 理 )。 为 了 组 合 这 两 个 预测 ， 神 经 网 络 还 必须 预测 在 上 下 文 C 之 后 出 现 





12.4 自然 语言 处 理 397 


的 词 位 于 尾 列表 的 概率 。 我 们 可 以 添加 额外 的 sigmoid 输出 单元 估计 PC ETI1C) 
实现 这 个 预测 。 额 外 输出 则 可 以 用 来 佑 计 Y 中 所 有 词 的 概率 分 布 ， 如 下 : 
Poy =ilc) =lerPW=ilCieLL-PGeTIC)) 
十 lierP = CeTIPGeTIC)， (12.10) 





其 中 P(y =? | CeEL) 由 神经 语言 模型 提供 P(y = CeT) 由 mgram 模型 提 
供 。 稍 作 修改 ， 这 种 方法 也 可 以 在 神经 语言 模型 的 softmax 层 中 使 用 括 外 的 输出 值 ， 
而 不 是 单独 的 sigmoid 单元 。 

短 列 表 方 法 的 一 个 明显 缺点 是 ， 神 经 语言 模型 的 潜在 泛 化 优势 仅 限 于 最 常用 的 
词 ， 这 大 概 是 最 没 用 的 。 这 个 缺点 引发 了 处 理 高 维 输出 替代 方法 的 探索 ， 如 下 所 述 。 


12.4.3.2 ”分 层 Softmax 


减少 大 词汇 表 V 上 高 维 输出 层 计算 负担 的 经 典 方法 (Goodman, 2001) 是 分 层 地 
分 解 概率 。|V| 因子 可 以 降低 到 log |V| 一 样 低 ， 而 无 需 执行 与 |V| 成 比例 数量 ( 并 且 
也 与 隐藏 单元 数量 mw 成 比例 ) 的 计算 。Bengio (2002) 和 Morin and Bengio (2005) 
将 这 种 因子 分 解 方法 引入 神经 语言 模型 中 。 

我 们 可 以 认为 这 种 层次 结构 是 先 建立 词 的 类 别 ， 然 后 是 词类 别 的 类 别 ， 然 后 是 
词类 别 的 类 别 的 类 别 等 等 。 这 些 伦 套 类 别 构成 一 棵 树 ， 其 叶子 为 词 。 在 平衡 树 中 ， 
树 的 深度 为 log |V|。 选 择 一 个 词 的 概率 是 由 路 径 〈 从 树 根 到 包含 该 词 叶子 的 路 径 ) 
上 的 每 个 节点 通 向 该 词 分 支 概率 的 乘积 给 出 。 图 12.4 是 一 个 简单 的 例子 。Mmih and 
Hinton (2009) 也 描述 了 使 用 多 个 路 径 来 识别 单个 词 的 方法 ， 以 便 更 好 地 建 模 具有 多 
个 含义 的 词 。 计 算 词 的 概率 则 涉及 在 导向 该 词 所 有 路 径 上 的 求 和 。 

为 了 预测 树 的 每 个 节点 所 需 的 条 件 概 率 ， 我 们 通常 在 树 的 每 个 节点 处 使 用 多 加 
回归 模型 ， 并 且 为 所 有 这 些 模型 提供 与 输入 相同 的 上 下 文 C。 因 为 正确 的 输出 编码 
在 训练 集中 , 我 们 可 以 使 用 监督 学 习 训练 逻辑 回归 模型 。 我 们 通常 使 用 标准 交叉 业 损 
失 ， 对 应 于 最 大 化 正确 判断 序列 的 对 数 似 然 。 

因为 可 以 高 效 地 计算 输出 对 数 似 然 〈 低 至 log |V| 而 不 是 |V| )， 所 以 也 可 以 高 效 
地 计算 梯度 。 这 不 仅 包 括 关于 输出 参数 的 梯度 ， 而 且 还 包括 关于 隐藏 层 激 活 的 梯度 。 

优化 树 结 构 最 小 化 期 望 的 计算 数量 是 可 能 的 ， 但 通常 不 切实 际 。 给 定 词 的 相对 
频率 ， 信 息 理 论 的 工具 可 以 指定 如 何 选择 最 佳 的 二 进 制 编码 。 为 此 ， 我 们 可 以 构造 
树 ， 使 得 与 词 相 关联 的 位 数量 近似 等 于 该 词 频 率 的 对 数 。 然 而 在 实践 中 , 节省 计算 通 
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图 12.4: 词类 别 简单 层次 结构 的 示意 图 ， 其 中 8 个 词 wo,. ,wy 组 织 成 三 级 层次 结构 。 树 的 叶 
子 表示 实际 特定 的 词 。 内 部 节点 表示 词 的 组 别 。 任 何 节点 都 可 以 通过 二 值 决 策 序 列 (0= 左 ，]= 
右 ) 索引 ， 从 根 到 达 节 点 。 超 类 (0) 包含 类 (0,0) 和 (0, 1)， 其 中 分 别 包 含 词 fuoo,wa} 和 {faoa,ws} 
的 集合 ， 类 似 地 超 类 (1) 包含 类 (1,0) 和 (1, 1)， 分 别 包 含 词 Tua; ws} 和 {faoe,wr}。 如 果树 充分 
平衡 ， 则 最 大 深度 (二 值 决策 的 数量 ) 与 词 数 |V| 的 对 数 同 阶 ; 从 |V| 个 词 中 选 一 个 词 只 需 执行 
O(og|V|) 次 操作 〈 从 根 开 始 的 路 径 上 的 每 个 节点 一 次 操作 )。 在 该 示例 中 ,我 们 乘 三 次 概率 就 能 
计算 词 y 的 概率 ， 这 三 次 概率 与 从 根 到 节点 y 的 路 径 上 每 个 节点 向 左 或 向 右 的 二 值 决 策 相 关联 。 
令 5) 为 遍历 树 移 向 y 时 的 第 个 二 值 决 策 。 对 输出 y 进行 采样 的 概率 可 以 通过 条 件 概率 的 链 
式 法 则 分 解 为 条 件 概 率 的 乘积 ， 其 中 每 个 节点 由 这 些 位 的 前 绥 索 引 。 例 如 ， 节 点 (1 0) 对 应 于 前 绥 
(bo(wa) = 1 pi(oa) 0)， 并 且 wa 的 概率 可 以 如 下 分 解 : 




























































































书 (y 104) 尸 (bo 1, bl 0,b2 0) (12.11) 
= Plbo=TDPbi=0lbo=1TDPbs=0lbo=1lbl=0). (12.12) 
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常事 倍 功 半 ， 因 为 输出 概率 的 计算 仅 是 神经 语言 模型 中 总 计算 的 一 部 分 。 例 如 ， 假 
设 有 / 个 全 连接 的 宽度 为 mw 的 隐藏 层 。 令 mw 是 识别 一 个 词 所 需 比 特 数 的 加 权 平 均 

， 其 加 权 由 这 些 词 的 频率 给 出 。 在 这 个 例子 中 ， 计 算 隐 藏 激活 所 需 的 操作 数 增长 
为 O(102)， 而 输出 计算 增长 为 O(nano)。 只 要 mw < 1 ， 我 们 可 以 通过 收缩 ww 比 
收缩 wp 减少 更 多 的 计算 量 。 事 实 上 ，wn 通常 很 小 。 因 为 词汇 表 的 大 小 很 少 超过 一 
百 万 而 logs(105) 盖 20， 所 以 可 以 将 ms 减 小 到 大 约 20， 但 ww 通 背 大 得 多 ， 大 约 为 
103 或 更 大 。 我 们 可 以 定义 深度 为 2 和 分 支 因 子 为 V 人 IT 的 树 ， 而 不 用 仔细 优化 分 支 
因子 为 2 的 树 。 这 样 的 树 对 应 于 简单 定义 一 组 互 斥 的 词类 。 基 于 深度 为 2 的 树 的 简 
单方 法 可 以 获得 层级 策略 大 部 分 的 计算 益处 。 

一 个 仍然 有 点 开放 的 问题 是 如 何 最 好 地 定义 这 些 词 类 ， 或 者 如 何 定义 一 般 的 词 
层次 结构 。 早 期 工作 使 用 现 有 的 层次 结构 (Morin and Bengio, 2005) ， 但 也 可 以 理想 
地 与 神经 语言 模型 联合 学 习 层 次 结构 。 学 习 层 次 结构 很 困难 。 对 数 似 然 的 精确 优化 
似乎 难以 解决 ， 因 为 词 层 次 的 选择 是 离散 的 ， 不 适 于 基于 梯度 的 优化 。 然 而 ， 我 们 
可 以 使 用 离散 优化 来 近似 地 最 优化 词类 的 分 制 。 

分 层 softmax 的 一 个 重要 优点 是 ， 它 在 训练 期 间 和 测试 期 间 (如果 在 测试 时 我 
们 想 计 算 特 定 词 的 概率 ) 都 带 来 了 计算 上 的 好 处 。 

当然 即使 使 用 分 层 softmax， 计 算 所 有 |V| 个 词 概率 的 成 本 仍 是 很 高 的 。 另 一 个 
重要 的 操作 是 在 给 定 上 下 文中 选择 最 可 能 的 词 。 不 幸 的 是 ， 树 结构 不 能 为 这 个 问题 
提供 高 效 精确 的 解决 方案 。 

缺点 是 在 实践 中 , 分 层 softmax 倾向 于 更 差 的 测试 结果 ( 相对 基于 采样 的 方法 )， 
我 们 将 在 下 文 描述 。 这 可 能 是 因为 词类 选择 得 不 好 。 





12.4.3.3 “重要 采样 


加 速 神经 语言 模型 训练 的 一 种 方式 是 ， 避 免 明 确 地 计算 所 有 未 出 现在 下 一 位 置 
的 词 对 梯度 的 贡献 。 每 个 不 正确 的 词 在 此 模型 下 具有 低 概率 。 枚 举 所 有 这 些 词 的 计 
算 成 本 可 能 会 很 高 。 相 反 ， 我 们 可 以 仅 采 样 词 的 子 集 。 使 用 式 (12.8) 中 引入 的 符号 ， 
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梯度 可 以 写成 如 下 形式 ; 
logPly |C) _ olog Softmaxy(a) 





(12.13) 
O e9y 

一 而 吧 刺 E (12.14) 

而 (oog2e (12.15) 

as 2 [OA (12.16) 











其 中 a 是 presoftmax 激活 (或 得 分 ) 向 量 ， 每 个 词 对 应 一 个 元 素 。 第 一 项 是 正 相 

(positive phase) 项 ， 推 动 ouy 向 上 ; 而 第 二 项 是 负 相 (negative phase) 项 ， 对 于 所 有 

1 以 权重 P( | C) 推动 ui 向 下 。 由 于 负 相 项 是 期 望 值 ， 我 们 可 以 通过 蒙特 卡 罗 采 样 

估计 。 然 而 ， 这 将 需要 从 模型 本 身 采 样 。 从 模型 中 采样 需要 对 词汇 表 中 所 有 的 计 
P(G |C)， 这 正 是 我 们 试图 避免 的 。 

我 们 可 以 从 另 一 个 分 布 中 采样 ， 而 不 是 从 模型 中 采样 ， 这 个 分 布 称 为 提议 分 布 
(proposal distribution ) ( 记 为 g )， 并 通过 适当 的 权重 校正 从 错误 分 布 采 样 引 入 的 偏 
差 (Bengio and Snkcal, 2003; Bengio and Sengkcal, 2008)。 这 是 一 种 称 为 重要 采样 
(Importance Sampling ) 的 更 通用 技术 的 应 用 ， 我 们 将 在 第 12.4.3.3 节 中 更 详细 地 描 
述 。 不 笠 的 是 ， 即 使 精确 重要 采样 也 不 一 定 有 效 ， 因 为 我 们 需要 计算 权重 pi/w ， 其 
中 的 wm = PLUG | C) 只 能 在 计算 所 有 得 分 w 后 才能 计算 。 这 个 应 用 采取 的 解决 方案 
称 为 有 偏重 要 采样 ， 其 中 重要 性 权重 被 归 一 化 加 和 为 1。 当 对 负 词 w 进行 采样 时 ， 
相关 联 的 梯度 被 加 权 为 : 




















册 二 pn/an (二 1 而 


Drm7 /Gd 
这 些 权 重用 于 对 来 自 v 的 痉 个 负 样本 给 出 适当 的 重要 性 ， 以 形成 负 相 估计 对 梯度 的 
贡献 
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|y| 


2 1O) 人 2 (12.18) 
一 元 语法 或 二 元 语法 分 布 与 提议 分 布 g 工作 得 一 样 好 。 从 数据 估计 这 种 分 布 的 参数 
是 很 容易 。 在 估计 参数 之 后 ， 也 可 以 非常 高 效 地 从 这 样 的 分 布 采样 。 


重要 采样 ( Importance Sampling ) 不 仅 可 以 加 速 具 有 较 大 softmax 输出 的 模 
型 。 更 一 般 地 ， 它 可 以 加 速 具 有 大 稀 玻 输出 层 的 训练 ， 其 中 输出 是 稀 玻 向 量 而 不 是 
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风 . 选 1。 其 中 一 个 例子 是 词 袋 (bag of words )。 词 袋 具 有 稀 下 向 量 v， 其 中 ww 表示 
词汇 表 中 的 词 ， 存 不 存在 文档 中 。 或 者 ，ww 可 以 指示 词 宇 出 现 的 次 数 。 由 于 各 种 原 
因 ， 训 练 产 生 这 种 稀 玻 向 量 的 机 器 学 习 模型 的 成 本 可 能 很 高 。 在 学 习 的 早期 ， 模 型 
可 能 不 会 真 的 使 输出 真正 稀 芍 。 此 外 ， 将 输出 的 每 个 元 素 与 目标 的 每 个 元 素 进 行 比 
较 ， 可 能 是 描述 训练 的 损失 函数 最 自然 的 方式 。 这 意味 着 稀 玻 输出 并 不 一 定 能 带 来 
计算 上 的 好 处 ， 因 为 模型 可 以 选择 使 大 多 数 输出 非 零 ， 并 且 所 有 这 些 非 零 值 需要 与 
相应 的 训练 目标 进行 比较 〈 即 使 训练 目标 是 零 )。Dauphin et ol. (2011) 证 明 可 以 使 
用 重要 采样 加 速 这 种 模型 。 高 效 算 法 最 小 化 “ 正 词 ”( 在 目标 中 非 零 的 那些 词 ) 和 相 
等 数量 的 “ 负 词 ”的 重 构 损 失 。 负 词 是 被 随机 选取 的 ， 如 使 用 启发 式 采 样 更 可 能 被 误 
解 的 词 。 该 启发 式 过 采样 引入 的 偏差 则 可 以 使 用 重要 性 权重 校正 。 

在 所 有 这 些 情 况 下 ， 输 出 层 梯 度 估 计 的 计算 复杂 度 被 减少 为 与 负 样本 数量 成 比 
例 ， 而 不 是 与 输出 向 量 的 大 小 成 比例 。 























12.4.3.4 ”噪声 对 比 估 计 和 排名 损失 





为 减少 训练 大 词汇 表 的 神经 语言 模型 的 计算 成 本 ， 研 究 者 也 提出 了 其 他 基于 采 
样 的 方法 。 早 期 的 例子 是 Collobert and Weston (2008a) 提出 的 排名 损失 ,将 神经 语 
言 模型 每 个 词 的 输出 视 为 一 个 得 分 ， 并 试图 使 正确 词 的 得 分 oy 比 其 他 词 ui; 排名 更 
高 。 提 出 的 排名 损失 则 是 





也 = 》 max(0,1 一 ay 十 ai) (12.19) 
如 果 观 察 到 词 的 得 分 ay 远 超 过 负 词 的 得 分 w (相差 大 于 1)， 则 第 项 梯度 为 零 。 
这 个 准则 的 一 个 问题 是 它 不 提供 估计 的 条 件 概率 ， 条 件 概率 在 很 多 应 用 中 是 有 用 的 ， 
包括 语音 识别 和 文本 生成 〈 包 括 诸 如 翻译 的 条 件 文 本 生成 任务 )。 
最 近 用 于 神经 语言 模型 的 训练 目标 是 噪声 对 比 估 计 ， 将 在 第 18.6 节 中 介绍 。 这 
种 方法 已 成 功 应 用 于 神经 语言 模型 (Mnih and Teh,， 2012; Mnih and Kavukcuoglu， 
2013)。 





12.4.4 结合 -gram 和 神经 语言 模型 


mn-gram 模型 相对 神经 网 络 的 主要 优点 是 w-gram 模型 具有 更 高 的 模型 容量 ( 通 
过 存储 非常 多 的 元 组 的 频率 )， 并 且 处 理 样本 只 需 非 常 少 的 计算 量 〈 通 过 查找 只 匹配 
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当前 上 下 文 的 几 个 元 组 )。 如 果 我 们 使 用 哈 希 表 或 树 来 访问 计数 , 那么 用 于 mw-gram 的 
计算 量 几乎 与 容量 无 关 。 相 比 之 下 ， 将 神经 网 络 的 参数 数目 加 倍 通常 也 大 致 加 倍 计 
算 时 间 。 当 然 ， 避 免 每 次 计算 时 使 用 所 有 参数 的 模型 是 一 个 例外 。 和 藤 人 层 每 次 只 索 
引 单个 甬 入 ， 所 以 我 们 可 以 增加 词汇 量 ， 而 不 会 增加 每 个 样本 的 计算 时 间 。 一 些 其 
他 模型 ， 例 如 平 铺 卷 积 网 络 ， 可 以 在 减少 参数 共享 程度 的 同时 添加 参数 以 保持 相同 
的 计算 量 。 然 而 ， 基 于 矩阵 乘法 的 典型 神经 网 络 层 需要 与 参数 数量 成 比例 的 计算 量 。 

因此 ， 增 加 容量 的 一 种 简单 方法 是 将 两 种 方法 结合 ， 由 神经 语言 模型 和 六 
gram 语言 模型 组 成 集成 (Bengio et al., 2001b, 2003)。 

对 于 任何 集成 ， 如 果 集 成 成 员 产 生 独 立 的 错误 ,这 种 技术 可 以 减少 测试 误差 。 集 
成 学 习 领 域 提供 了 许多 方法 来 组 合集 成 成 员 的 预测 ， 包 括 统 一 加 权 和 在 验证 集 上 选 
择 权 重 。Mikolov et o/. (2011a) 扩展 了 集成 ， 不 是 仅 包括 两 个 模型 ， 而 是 包括 大 量 
模型 。 我 们 也 可 以 将 神经 网 络 与 最 大 业 模 型 配对 并 联合 训练 (Mikolov et al., 2011b)。 
该 方法 可 以 被 视 为 训练 具有 一 组 额外 输入 的 神经 网 络 ， 额 外 输入 直接 连接 到 输出 并 
且 不 连接 到 模型 的 任何 其 他 部 分 。 额 外 输入 是 输入 上 下 文中 特定 w-gram 是 否 存在 
的 指示 器 ， 因 此 这 些 变量 是 非常 高 维 且 非常 稀 玻 的 。 

模型 容量 的 增加 是 巨大 的 (架构 的 新 部 分 包含 高 达 |sY|” 个 参数 )， 但 是 处 理 输 
和信 所 需 的 额外 计算 量 是 很 小 的 〈 因为 额外 输入 非常 稀 玻 )。 























12.4.5 ”神经 机 器 翻译 








机 器 翻译 以 一 种 自然 语言 读 取 句 子 并 产生 等 同 含义 的 另 一 种 语言 的 句子 。 机 器 
翻译 系统 通常 涉及 许多 组 件 。 在 高 层次 ,一 个 组 件 通常 会 提出 许多 候选 翻译 。 由 于 语 
言 之 间 的 差异 ， 这 些 翻译 中 的 许多 翻译 是 不 符合 语法 的 。 例 如 ， 许 多 语言 在 名 词 后 
放置 形容 词 ， 因 此 直接 翻译 成 英语 时 ， 它 们 会 产生 诸如 “apple red” 的 短语 。 提 议 机 
制 提 出 建议 翻译 的 许多 变 体 ， 理 想 情 况 下 应 包括 “red apple"。 翻 译 系统 的 第 二 个 组 
成 部 分 (语言 模型 ) 评估 提议 的 翻译 ,并 可 以 评估 “red apple” 比 “apple red” 更 好 。 

最 早 的 机 器 翻译 神经 网 络 探索 中 已 经 纳入 了 编码 器 和 解码 吉 的 想法 (Allen 1987; 
Chrisman 1991; Forcada and Neco 1997)， 而 翻译 中 神经 网 络 的 第 一 个 大 规模 有 竞 
争 力 的 用 途 是 通过 神经 语言 模型 升级 翻译 系统 的 语言 模型 (Schwenk et cL.，2006; 
Schwenk,，2010)。 之 前 ， 大 多 数 机 需 翻 译 系统 在 该 组 件 使 用 mw-gram 模型 。 机 器 翻 
译 中 基于 mw-gram 的 模型 不 仅 包括 传统 的 回 退 mw-gram 模型 (Jelinek and Mercer， 
1980; Katz, 1987; Chen and Goodman, 1999)， 而 且 包括 最 大 暗 语言 模型 (maximum 
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entropy language models) (Berger et al., 1996) ， 其 中 给 定 上 下 文中 常见 的 词 ，aftine- 
softmax 层 预测 下 一 个 词 。 

传统 语言 模型 仅仅 报告 自然 语言 句子 的 概率 。 因 为 机 吉 翻 译 涉及 给 定 输入 句子 
产生 输出 句子 ， 所 以 将 自然 语言 模型 扩展 为 条 件 的 是 有 意义 的 。 如 第 6.2.1.1 节 所 述 
可 以 直接 地 扩展 一 个 模型 ， 该 模型 定义 某 些 变量 的 边缘 分 布 ， 以 便 在 给 定 上 下 文 
C (C 可 以 是 单个 变量 或 变量 列表 ) 的 情况 下 定义 该 变量 的 条 件 分 布 。Devlin et 以 
(2014) 在 一 些 统计 机 需 翻 译 的 基准 中 击败 了 最 先进 的 技术 ， 他 给 定 源 语言 中 的 短语 
si,s2,... ;sk 后 使 用 MLP 对 目标 语言 的 短语 tttz,.…, 妈 进行 评分 。 这 个 MLP 估 
计 Pt t|sis2 sk) 这 个 MLP 的 估计 替代 了 条 件 wgram 模型 提供 的 
估计 。 

基于 MLP 方法 的 缺点 是 需要 将 序列 预 处 理 为 固定 长 度 。 为 了 使 翻译 更 加 灵活 ， 
我 们 和 希望 模型 允许 可 变 的 输入 长 度 和 输出 长 度 。RNN 具备 这 种 能 力 。 第 10.2.4 节 描 
述 了 给 定 某 些 输入 后 ， 关 于 序列 条 件 分 布 RNN 的 几 种 构造 方法 ， 并 且 第 10.4 节 描 
述 了 当 输 入 是 序列 时 如 何 实现 这 种 条 件 分 布 。 在 所 有 情况 下 ， 一 个 模型 首先 读 取 输 
入 序列 并 产生 概括 输入 序列 的 数据 结构 。 我 们 称 这 个 概括 为 “上 下 文 ” C。 上 下 文 C 
可 以 是 向 量 列 表 ， 或 者 向 量 或 张 量 。 读 取 输 入 以 产生 C 的 模型 可 以 是 RNN (Cho 
et al., 2014b; Sutskever et al., 2014; Jean et al., 2014) 或 卷 积 网 络 (Kalchbrenner and 
Blunsom, 2013)。 另 一 个 模型 (通常 是 RNN )， 则 读 取 上 下 文 C 并 且 生 成 目标 语言 
的 句子 。 在 图 12.5 中 展示 了 这 种 用 于 机 器 翻译 的 编码 器 -解码 器 框架 的 总 体 思想 。 

为 生成 以 源 句 为 条 件 的 整 句 , 模型 必须 具有 表示 整个 源 句 的 方式 。 早 期 模型 只 能 
表示 单个 词 或 短语 。 从 表示 学 习 的 观点 来 看 , 具有 相同 含义 的 句子 具有 类 似 表示 是 有 
用 的 , 无论 它们 是 以 源 语言 还 是 以 目标 语言 书写 。 研 究 者 首先 使 用 卷 积 和 RNN 的 组 
合 探索 该 策略 (Kalchbrenner and Blunsom, 2013)。 后 来 的 工作 介绍 了 使 用 RNN 对 
所 提议 的 翻译 进行 打分 (Cho et al., 2014b) 或 生成 翻译 句子 (Sutskever et w1.，2014)。 
Jean et al. (2014) 将 这 些 模 型 扩展 到 更 大 的 词汇 表 。 















































12.4.5.1 ”使 用 注意 力 机 制 并 对 齐 数 据 片 段 


使 用 固定 大 小 的 表示 概括 非常 长 的 句子 (例如 60 个 词 ) 的 所 有 语义 细节 是 非 
向 困 难 的 。 这 需要 使 用 足够 大 的 RNN， 并 且 用 足够 长 时 间 训 练 得 很 好 才能 实现 ， 如 
Cho et ol/. (2014b) 和 Sutskever et oa1. (2014) 所 表明 的 。 然 而 ， 更 高 效 的 方法 是 先 
读 取 整个 句子 或 段落 (以 获得 正在 表达 的 上 下 文 和 焦点 ) ， 然 后 一 次 翻译 一 个 词 ， 
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图 12.5: 编码 器 -解码 器 架构 在 直观 表示 (例如 词 序 列 或 图 像 ) 和 语义 表示 之 间 来 回 映射 。 使 用 来 
自 一 种 模 态 数据 的 编码 顺和 输出 〈 例如 从 法 语句 子 到 捕获 句子 含义 的 隐藏 表示 的 编码 器 映射 ) 作为 
用 于 另 一 模 态 的 解码 需 输 入 〈 如 解码 器 将 捕获 句子 含义 的 隐藏 表示 映射 到 英语 )， 我 们 可 以 训练 将 
一 种 模 态 转换 到 另 一 种 模 态 的 系统 。 这 个 想法 已 经 成 功 应 用 于 很 多 领域 ， 不 仅仅 是 机 器 翻译 ， 还 
包括 为 图像 生成 标题 。 
























































每 次 聚焦 于 输入 句子 的 不 同 部 分 来 收集 产生 下 一 个 输出 词 所 需 的 语义 细节 。 这 正 
是 Bahdanau et al. (2015) 第 一 次 引入 的 想法 。 图 12.6 中 展示 了 注意 力 机 制 ， 其 中 每 
个 时 间 步 关注 输入 序列 的 特定 部 分 。 

我 们 可 以 认为 基于 注意 力 机 制 的 系统 有 三 个 组 件 : 

















。 读 取 顺 读 取 原 始 数据 〈 例如 源 语句 中 的 源 词 ) 并 将 其 转换 为 分 布 式 表 示 ， 其 中 
一 个 特征 向 量 与 每 个 词 的 位 置 相关 联 。 


。 存 储 器 存储 读 取 顺 输出 的 特征 向 量 列表 。 这 可 以 被 理解 为 包含 事实 序列 的 存储 
器 ， 而 之 后 不 必 以 相同 的 顺序 从 中 检索 ， 也 不 必 访 问 全 部 。 


。 最 后 一 个 程序 利用 存储 顺 的 内 容 顺 序 地 执行 任务 ， 每 个 时 间 步 聚焦 于 某 个 存储 
器 元 素 的 内 容 〈 或 几 个 ， 具 有 不 同 权 重 )。 


第 三 组 件 可 以 生成 翻译 语句 。 


当 用 一 种 语言 书写 的 句子 中 的 词 与 另 一 种 语言 的 翻译 语句 中 的 相应 词 对 齐 时 ， 
可 以 使 对 应 的 词 能 人 相关 联 。 早 期 的 工作 表明 ， 我 们 可 以 学 习 将 一 种 语言 中 的 词 
先 入 与 另 一 种 语言 中 的 词 和 和 人 相关 联 的 翻译 矩阵 (Kozisky et al.，2014)， 与 传统 
的 基于 短语 表 中 频率 计数 的 方法 相 比 ， 可 以 产生 较 低 的 对 齐 错误 率 。 更 早 的 工作 
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图 12.6: 由 Bahdanau et ao/. (2015) 引入 的 现代 注意 力 机 制 ， 本 质 上 是 加 权 平 均 。 注 意 力 机 制 对 有 具 
有 权重 at 的 特征 向 量 /5 进行 加 权 平 均 形 成 上 下 文 向 量 ec。 在 一 些 应 用 中 ， 特 征 向 量 刀 是 神经 
网 络 的 隐藏 单元 ， 但 它们 也 可 以 是 模型 的 原始 输入 。 权 重 at5 由 模型 本 身 产 生 。 它 们 通常 是 区 间 
[0, 了 ] 中 的 值 ， 并 且 旨 在 仅仅 集中 在 单个 Ai5 周围 ， 使 得 加 权 平 均 精 确 地 读 取 接 近 一 个 特定 时 间 
步 的 特征 向 量 。 权 重 at5 通常 由 模型 另 一 部 分 发 出 的 相关 性 得 分 应 用 softmax 函数 后 产生 。 注 意 
力 机 制 在 计算 上 需要 比 直 接 索 引 期 望 的 大 2 付出 更 高 的 代价 ， 但 直接 索引 不 能 使 用 梯度 下 降 训练 。 
基于 加 权 平 均 的 注意 力 机 制 是 平滑 、 可 微 的 近似 ， 可 以 使 用 现 有 优化 算法 训练 。 
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(Klementiev et al.,， 2012) 也 对 路 语言 词 向 量 进行 了 研究 。 这 种 方法 存在 很 多 的 扩展 。 
例如 ， 人 允许 在 更 大 数据 集 上 训练 的 更 高 效 的 跨 语言 对 齐 (Gouws et ao/., 2014) 。 


12.4.6 ”历史 展望 


在 对 反 向 传播 的 第 一 次 探索 中 ，Rumelhart et aol. (1986a) 等 人 提出 了 分 布 式 表 
示 符 号 的 思想 ， 其 中 符号 对 应 于 族 成 员 的 有 身份， 而 神经 网 络 捕获 族 成 员 之 间 的 关系 ， 
训练 样本 形成 三 元 组 如 (Colin，Mother，Victoria )。 神 经 网 络 的 第 一 层 学 习 每 个 族 
成 员 的 表示 。 例 如 ，Colin 的 特征 可 能 代表 Colin 所 在 的 族 树 ， 他 所 在 树 的 分 支 ， 他 
来 自 哪 一 代 等 等 。 我 们 可 以 将 神经 网 络 认 为 是 将 这 些 属 性 关联 在 一 起 的 计算 学 习 规 
则 ， 可 以 获得 期 望 预测 。 模 型 则 可 以 进行 预测 ， 例 如 推断 谁 是 Colin 的 母亲 。 

Deerwester et al. (1990) 将 符号 和 入 的 想法 扩展 到 对 词 的 谍 入 。 这 些 骨 入 使 用 
SVD 学 习 。 之 后 ， 舱 人 将 通过 神经 网 络 学 习 。 

自然 语言 处 理 的 历史 是 由 流行 表示 (对 模型 输入 不 同方 式 的 表示 ) 的 变化 为 
标志 的 。 在 早期 对 符号 和 词 建 模 的 工作 之 后 ， 神 经 网 络 在 NLP 上 一 些 最 早 的 应 用 
(Miikkulainen and Dyer, 1991; Schmidhuber, 1996) 将 输入 表示 为 字符 序列 。 


Bengio et ol. (2001b) 将 焦点 重新 引 到 对 词 建 模 并 引入 神经 语言 模型 ， 能 产生 可 
解释 的 词 戏 入 。 这 些 神经 模型 已 经 从 在 一 小 组 符号 上 的 定义 表示 ( 20 世纪 80 年 代 ) 
扩展 到 现代 应 用 中 的 数 百 万 字 (包括 专 有 名 词 和 拼写 错误 )。 这 种 计算 扩展 的 努力 导 
致 了 第 12.4.3 节 中 描述 的 技术 发 明 。 

最 初 ， 使 用 词 作为 语言 模型 的 基本 单元 可 以 改进 语言 建 模 的 性 能 (Bengio et al,， 
2001b)。 而 今 ， 新 技术 不 断 推动 基于 字符 (Sutskever et al., 2011) ) 和 基于 词 的 模型 
向 前 发 展 ， 最 近 的 工作 (Gillick et oa1., 2015) 甚至 建 模 Unicode 字符 的 单个 字 节 。 

神经 语言 模型 背后 的 思想 已 经 扩展 到 多 个 自然 语言 处 理应 用 ， 如 解析 (Hender- 
son， 2003, 2004; Collobert，2011) 、 词 性 标注 、 语 义 角 色 标 注 、 分 块 等 ， 有 时 使 用 
共享 词 能 和 的 单一 多 任务 学 习 架 构 (Collobert and Weston, 2008a; Collobert et al,， 
2011a)。 


随 着 t-SNE 降 维 算法 的 发 展 (van der Maaten and Hinton，2008) 以 及 Joseph 
Turian 在 2009 年 引入 的 专用 于 可 视 化 词 徐 人 的 应 用 ， 用 于 分 析 语 言 模型 调和 人 的 二 
维 可 视 化 成 为 一 种 流行 的 工具 。 
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12.5 “其 他 应 用 








在 本 节 中 ， 我 们 介绍 深度 学 习 一 些 其 他 类 型 的 应 用 ， 它 们 与 上 面 讨论 的 标准 对 
象 识 别 、 语 音 识 别 和 自然 语言 处 理 任务 不 同 。 本 书 的 第 三 部 分 将 扩大 这 个 范围 ， 甚 
至 进一步 扩展 到 仍 是 目前 主要 研究 领域 的 任务 。 











12.5.1 “推荐 系统 


言 息 技术 部 门 中 机 器 学 习 的 主要 应 用 之 一 是 向 潜在 用 户 或 客户 推荐 项 目 。 这 可 
以 分 为 两 种 主要 的 应 用 : 在 线 广告 和 项 目 建 议 (通常 这 些 建 议 的 目的 仍然 是 为 了 销 
售 产品 )。 两 者 都 依赖 于 预测 用 户 和 项 目 之 间 的 关联 ， 一 旦 向 该 用 户 展示 了 广告 或 推 
荐 了 该 产品 ， 推 荐 系统 要 么 预测 一 些 行为 的 概率 〈 用 户 购买 产品 或 该 行为 的 一 些 代 
替 ) 或 预期 增益 (其 可 取决 于 产品 的 价值 )。 目 前 ， 互 联网 的 资金 主要 来 自 于 各 种 形 
式 的 在 线 广告 。 经 济 的 主要 部 分 依靠 网 上 购物 。 包 括 Amazon 和 eBay 在 内 的 公司 
都 使 用 了 机 器 学 习 〈 包 括 深 度 学 习 ) 推荐 他 们 的 产品 。 有 时 ， 项 目 不 是 实际 出 售 的 
产品 。 如 选择 在 社交 网 络 新 闻 信 息 流 上 显示 的 帖子 、 推 荐 观看 的 电影 、 推 荐 笑话 、 推 
荐 专家 建议 、 匹 配 视 频 游 戏 的 玩家 或 匹配 约会 的 人 。 

通常 ， 这 种 关联 问题 可 以 作为 监督 学 习 问 题 来 处 理 : 给 出 一 些 关 于 项 目 和 关于 
用 户 的 信息 ， 预 测 感 兴趣 的 行为 (用 户 点 击 广告 、 输 入 评级 、 点 击 “ 喜 欢 ” 按 钮 、 购 
买 产品 ， 在 产品 上 花 钱 、 花 时 间 访 问 产品 页 面 等 )。 通 稼 这 最 终 会 归结 到 回归 问题 
(预测 一 些 条 件 期 望 值 ) 或 概率 分 类 问题 〈( 预测 一 些 离散 事件 的 条 件 概率 )。 

早期 推荐 系统 的 工作 依赖 于 这 些 预测 输入 的 最 小 信息 : 用 户 ID 和 项 目 ID。 在 
这 种 情况 下 ， 唯 一 的 泛 化 方式 依赖 于 不 同 用 户 或 不 同 项 目的 目标 变量 值 之 间 的 模式 
相似 性 。 假 设 用 户 1 和 用 户 2 都 喜欢 项 目 A，B 和 C. 由 此 ， 我 们 可 以 推 灯 出 用 户 
1 和 用 户 2 具有 类 似 的 口味 。 如 果 用 户 1 喜欢 项 目 D， 那 么 这 可 以 强烈 提示 用 户 2 
也 喜欢 D。 基 于 此 原理 的 算法 称 为 协同 过 滤 (collaborative filtering )。 非 参数 方法 
(例如 基于 估计 偏好 模式 之 间 相 似 性 的 最 近邻 方法 ) 和 参数 方法 都 可 能 用 来 解决 这 个 
问题 。 人 参数 方法 通常 依赖 于 为 每 个 用 户 和 每 个 项 目 学 习 分 布 式 表 示 (也 称 为 能 入 )。 
目标 变量 的 双 线 性 预测 〈 例如 评级 ) 是 一 种 简单 的 参数 方法 , 这 种 方法 非常 成 功 , 通 
向 被 认为 是 最 先进 系统 的 组 成 部 分 。 通 过 用 户 舱 入 和 项 目 符 人 之 间 的 点 积 (可 能 需 
要 使 用 仅 依赖 于 用 户 ID 或 项 目 ID 的 常数 来 校正 ) 获得 预测 。 令 尺 是 包含 我 们 预 
测 的 天 阵 ，4 和 阵 行 中 是 用 户 矢 人,， 吾 和 抢 阵列 中 具有 项 目 侍 入 。 令 和 ec 是 分 别 包 
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含 针 对 每 个 用 户 〈 表 示 用 户 平常 坏 脾气 或 积极 的 程度 ) 以 及 每 个 项 目 〈 表 示 其 大 体 
受 欢 迎 程度 ) 的 偏 置 向 量 。 因 此 ， 双 线性 预测 如 下 获得 : 
及 一 大 十 G 十 >》 47Bja (12.20) 
了 7 

通常 ， 人 们 希望 最 小 化 预测 评级 尺 ,; 和 实际 评级 尺 。; 之 间 的 平方 误差 。 当 用 户 虹 人 
和 项 目 嵌 入 首次 缩小 到 低 维度 〈 两 个 或 三 个 ) 时 ， 它 们 就 可 以 方便 地 可 视 化 ， 或 者 
可 以 将 用 户 或 项 目 彼 此 进行 比较 〈 就 像 词 戏 入 )。 获 得 这 些 艇 入 的 一 种 方式 是 对 实际 
目标 〈 例如 评级 ) 的 珑 阵 尽 进行 奇异 值 分 解 。 这 对 应 于 将 如 = VD (或 归 一 化 
的 变 体 ) 分 解 为 两 个 因子 的 乘积 ， 低 秩 窍 阵 4 = VD 和 巨 = 凡 。SVD 的 一 个 问题 
是 它 以 任意 方式 处 理 缺 失 条 目 ， 如 同 它们 对 应 于 目标 值 0。 相 反 , 我 们 希望 避免 为 缺 
失 条 目 做 出 的 预测 付出 任何 代价 。 幸 运 的 是 ， 观 察 到 的 评级 的 平方 误差 总 和 也 可 以 
使 用 基于 梯度 的 优化 最 小 化 。SVD 和 式 (12.20) 中 的 双 线 性 预测 在 Netflix 奖 竞赛 中 
(目的 是 仅 基于 大 量 匿名 用 户 的 之 前 评级 预测 电影 的 评级 ) 表现 得 非常 好 (Bennett 
and Lanning, 2007)。 许 多 机 器 学 习 专 家 参加 了 2006 年 和 2009 年 之 间 的 这 场 比 赛 。 
它 提 高 了 使 用 先进 机 器 学 习 的 推荐 系统 的 研究 水 平 ， 并 改进 了 推荐 系统 。 即 使 简单 
的 双 线 性 预测 或 SVD 本 身 并 没有 赢得 比赛 , 但 它 是 大 多 数 竞争 对 手提 出 的 整体 模型 
中 一 个 组 成 部 分 ， 包 括 胜 者 (Tscher et al., 2009; Koren,， 2009)。 

除了 这 些 具 有 分 布 式 表 示 的 双 线 性 模型 之 外 , 第 一 次 用 于 协同 过 滤 的 神经 网 络 之 
一 是 基于 RBM 的 无 向 概率 模型 (Salakhutdinov et al., 2007)。RBM 是 NetfHlix 比 
赛 获胜 方法 的 一 个 重要 组 成 部 分 (T6scher et al., 2009; Koren, 2009)。 神 经 网 络 社 群 
中 也 已 经 探索 了 对 评级 矩阵 进行 因子 分 解 的 更 高 级 变 体 (Salakhutdinov and Mnih， 
2008)。 

然而 ， 协 同 过 滤 系 统 有 一 个 基本 限制 : 当 引 入 新 项 目 或 新 用 户 时 ， 缺 乏 评级 历 
意味 着 无 法 评估 其 与 其 他 项 目 或 用 户 的 相似 性 ， 或 者 说 无 法 评估 新 的 用 户 和 现 有 
项 目的 联系 。 这 被 称 为 冷 启动 推荐 问题 。 解 决 冷 启 动 推 荐 问题 的 一 般 方 式 是 引入 单 
个 用 户 和 项 目的 额外 信息 。 例 如 ， 该 额外 信息 可 以 是 用 户 简要 信息 或 每 个 项 目的 特 
征 。 使 用 这 种 信息 的 系统 被 称 为 基于 内 容 的 推荐 系统 (content-based recommender 
system)。 从 丰富 的 用 户 特征 或 项 目 特征 集 到 舱 入 的 映射 可 以 通过 深度 学 习 架 构 学 习 
(Huang et al., 2013; Elkahky et al.，2015)。 

专用 的 深度 学 习 架 构 ， 如 卷 积 网 络 已 经 应 用 于 从 丰富 内 容 中 提取 特征 ， 如 提取 
用 于 音乐 推荐 的 音乐 音 轨 (van den Oird et ol., 2013)。 在 该 工作 中 ， 卷 积 网 络 将 声 
学 特征 作为 输入 并 计算 相关 歌曲 的 戏 入 。 该 歌曲 谋 和 人 和 用 户 峙 入 之 间 的 点 积 则 可 以 
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预测 用 户 是 否 将 收听 该 歌曲 。 


12.5.1.1 探索 与 利用 


当 向 用 户 推荐 时 ， 会 产生 超出 普通 监督 学 习 范 围 的 问题 ， 并 进入 强化 学 习 的 领 
域 。 理 论 上 ， 许 多 推荐 问题 最 准确 的 描述 是 contextual bandit(Langford and Zhang， 
2008; Lu et al., 2010)。 问 题 是 ， 当 我 们 使 用 推荐 系统 收集 数据 时 ， 我 们 得 到 是 一 个 
有 人 往 且 不 完整 的 用 户 偏好 观 : 我 们 只 能 看 到 用 户 对 推荐 给 他 们 项 目的 反应 ， 而 不 是 
其 他 项 目 。 此 外 ， 在 某 些 情况 下 ， 我 们 可 能 无 法 获得 未 向 其 进行 推荐 的 用 户 的 任何 
信息 〈 例 如 ， 在 广告 竞价 中 ， 可 能 是 广告 的 建议 价格 低 于 最 低 价 格 阔 值 ， 或 者 没有 
赢得 竞价 ， 因 此 广告 不 会 显示 )。 更 重要 的 是 ， 我 们 不 知道 推荐 任何 其 他 项 目 会 产生 
什么 结果 。 这 就 像 训 练 一 个 分 类 需 ， 为 每 个 训练 样本 z 挑选 一 个 类 别 放 (通常 是 基 
于 模型 最 高 概率 的 类 别 )， 然 后 只 能 获得 该 类 别 正 确 与 否 的 反馈 。 显 然 ， 每 个 样本 传 
达 的 信息 少 于 监督 的 情况 (其 中 真实 标签 y 是 可 直接 访问 的 )， 因 此 需要 更 多 的 样 
本 。 更 糟糕 的 是 ， 如 果 我 们 不 够 小 心 ， 即 使 收集 越 来 越 多 的 数据 ， 我 们 得 到 的 系统 
可 能 会 继续 选择 错误 的 决定 ， 因 为 正确 的 决定 最 初 具 有 很 低 的 概率 : 直到 学 习 者 选 
择 正 确 的 决定 之 前 ， 该 系统 都 无 法 学 习 正 确 的 决定 。 这 类 似 于 强化 学 习 的 情况 ， 其 
中 仅 观 察 到 所 选 动作 的 奖励 。 一 般 来 说 ， 强 化 学 习 会 涉及 许多 动作 和 许多 奖励 的 序 
列 。bandit 情景 是 强化 学 习 的 特殊 情况 ， 其 中 学 习 者 仅 采 取 单 一 动作 并 接收 单个 奖 
励 。bandit 问题 在 学 习 者 知道 哪个 奖励 与 哪个 动作 相关 联 的 时 候 ， 是 更 容易 的 。 在 
一 般 的 强化 学 习 场 景 中 ， 高 奖励 或 低 奖 励 可 能 是 由 最 近 的 动作 或 很 久 以 前 的 动作 引 
起 的 。 术 语 contextual bandit ( contextual bandit ) 指 的 是 在 一 些 输 入 变量 可 以 通 
知 决 定 的 上 下 文中 采取 动作 的 情况 。 例 如 ， 我 们 至 少 知道 用 户 身 份 ， 并 且 我 们 要 选 
择 一 个 项 目 。 从 上 下 文 到 动作 的 映射 也 称 为 策略 (policy )。 学 习 者 和 数据 分 布 〈 现 
在 取决 于 学 习 者 的 动作 ) 之 间 的 反馈 循环 是 强化 学 习 和 bandit 研 究 的 中 心 问题 。 

强化 学 习 需 要 权衡 探索 ( exploration ) 与 利用 ( exploitation )。 利 用 指 的 是 从 
目前 学 到 的 最 好 策略 采取 动作 ， 也 就 是 我 们 所 知 的 将 获得 高 奖励 的 动作 。 探 索 
(Cexploration ) 是 指 采 取 行 动 以 获得 更 多 的 训练 数据 。 如 果 我 们 知道 给 定 上 下 文 zw， 
动作 au 给 予 我 们 1 的 奖励 ， 但 我 们 不 知道 这 是 否 是 最 好 的 奖励 。 我 们 可 能 想 利 用 我 
们 目前 的 策略 ， 并 继续 采取 行动 w 相对 肯定 地 获得 1 的 奖励 。 然 而 ， 我 们 也 可 能 想 
通过 尝试 动作 w' 来 探索 。 我 们 不 知道 尝试 动作 w' 会 发 生 什么 。 我 们 和 希望 得 到 2 的 
奖励 ， 但 有 获得 0 奖励 的 风险 。 无 论 如 何 ， 我 们 至 少 获得 了 一 些 知识 。 







































































4 和 40 第 十 二 章 ”应 用 


探索 ( exploration ) 可 以 以 许多 方式 实现 ， 从 覆 盖 可 能 动作 的 整个 空间 的 随机 
动作 到 基于 模型 的 方法 〈 基 于 预期 回报 和 模型 对 该 回报 不 确定 性 的 量 来 计算 动作 的 
选择 )。 

许多 因素 决定 了 我 们 喜欢 探索 或 利用 的 程度 。 最 突出 的 因素 之 一 是 我 们 感 兴趣 
的 时 间 尺 度 。 如 果 代 理 只 有 短暂 的 时 间 积 累 奖励 ， 那 么 我 们 喜欢 更 多 的 利用 。 如 果 
代理 有 很 长 时 间 积 累 奖 励 ， 那 么 我 们 开始 更 多 的 探索 ， 以 便 使 用 更 多 的 知识 更 有 效 
地 规划 未 来 的 动作 。 

监督 学 习 在 探索 或 利用 之 间 没 有 权衡 ， 因 为 监督 信号 总 是 指定 哪个 输出 对 于 每 
个 输入 是 正确 的 。 我 们 总 是 知道 标签 是 最 好 的 输出 ， 没 有 必要 尝试 不 同 的 输出 来 确 
定 是 否 优 于 模型 当前 的 输出 。 

除了 权衡 探索 和 利用 之 外 ， 强 化 学 习 背 景 下 出 现 的 另 一 个 困难 是 难以 评估 和 比 
较 不 同 的 策略 。 强 化 学 习 包 括 学 习 者 和 环境 之 间 的 相互 作用 。 这 个 反馈 回路 意味 着 
使 用 固定 的 测试 集 输入 评估 学 习 者 的 表现 不 是 直接 的 。 策 略 本 身 确定 将 看 到 哪些 输 
入 。Dudik ef o (2011) 提出 了 评估 contextual bandit 的 技术 。 




















12.5.2 ”知识 表示 、 推 理 和 回答 


因为 使 用 符号 (Rumelhart et ol.，1986a) 和 词 做 入 (Deerwester et al.，1990; 
Bengio ef o，2001b)， 深 度 学 习 方 法 在 语言 模型 、 机 器 翻 译 和 自然 语言 处 理 方面 非 
稼 成 功 。 这 些 能 人 表示 关于 单个 词 或 概念 的 语义 知识 。 研 究 前 沿 是 为 短语 或 词 和 事 
实 之 间 的 关系 开发 和 庶 入 。 搜 索引 擎 已 经 使 用 机 器 学 习 来 实现 这 一 目的 ， 但 是 要 改进 
这 些 更 高 级 的 表示 还 有 许多 工作 要 做 。 





12.5.2.1 知识、 联系 和 回答 





一 个 有 趣 的 研究 方向 是 确定 如 何 训 练 分 布 式 表 示 才 能 捕获 两 个 实体 之 间 的 关系 
(relation )。 

数学 中 ， 二 元 关系 是 一 组 有 序 的 对 象 对 。 集 合 中 的 对 具有 这 种 关系 ， 而 那些 不 
在 集合 中 的 对 则 没有 。 例 如 , 我们 可 以 在 实体 集 {1,2,3} 上 定义 关系 “小 于 ”来 定义 
有 序 对 的 集合 $ = {(1,2),(1,3),(2,3)}。 一 旦 这 个 关系 被 定义 ， 我 们 可 以 像 动 词 一样 
使 用 它 。 因 为 (1,2) ES， 我 们 说 1 小 于 2。 因 为 (2,1) 和 S， 我 们 不 能 说 2 小 于 1。 
当然 ， 彼 此 相关 的 实体 不 必 是 数字 。 我 们 可 以 定义 关系 is_a_type_of 包含 如 ( 狗 ， 
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吐 乳 动物 ) 的 元 组 。 

在 AI 的 背景 下 ,我 们 将 关系 看 作 句 法 上 简单 且 高 度 结构 化 的 语言 。 关 系 起 到 动 
词 的 作用 ， 而 关系 的 两 个 参数 发 挥 着 主体 和 客体 的 作用 。 这 些 句子 是 一 个 三 元 组 标 
记 的 形式 : 











(subject, verb,object) (12.21) 
其 值 是 
(entity;,relationj,entityy). (12.22) 
我 们 还 可 以 定义 属性 (attribute )， 类 似 于 关系 的 概念 ， 但 只 需要 一 个 参数 : 
(entity,, attributeh. (12.23) 
例如 ， 我 们 可 以 定义 has_fur 属性 ， 并 将 其 应 用 于 像 狗 这 样 的 实体 。 
许多 应 用 中 需要 表示 关系 和 推理 。 我 们 如 何在 神经 网 络 中 做 到 这 一 点 ? 


机 器 学 习 模 型 当然 需要 训练 数据 。 我 们 可 以 推断 非 结 构 化 自然 语言 组 成 的 训练 
数据 集中 实体 之 间 的 关系 ， 也 可 以 使 用 明确 定义 关系 的 结构 化 数据 库 。 这 些 数据 库 
的 共同 结构 是 关系 型 数据 库 ， 它 存储 这 种 相同 类 型 的 信息 ， 虽 然 没 有 格式 化 为 三 
元 标记 的 句子 。 当 数据 库 旨 在 将 日 常生 活 中 常识 或 关于 应 用 领域 的 专业 知识 传达 
给 人 工 智能 系统 时 , 我 们 将 这 种 数据 库 称 为 知识 库 。 知 识 库 包括 一 般 的 像 Freebase、 
0penCyc、WordNet 、Wikibase2 等 等 ， 和 专业 的 知识 库 ， 如 GeneOntology?。 实 体 
和 关系 的 表示 可 以 将 知识 库 中 的 每 个 三 元 组 作为 训练 样本 来 学 习 ， 并 且 以 最 大 化 捕 
获 它 们 的 联合 分 布 为 训练 目标 (Bordes et af., 2013a)。 

除了 训练 数据 ， 我 们 还 需 定 义 训练 的 模型 族 。 一 种 常见 的 方法 是 将 神经 语言 模 
型 扩展 到 模型 实体 和 关系 。 神 经 语言 模型 学 习 提 供 每 个 词 分 布 式 表 示 的 向 量 。 他 们 还 
通过 学 习 这 些 向 量 的 函数 来 学 习 词 之 间 的 相互 作用 ， 例 如 哪些 词 可 能 出 现在 词 序列 
之 后 。 我 们 可 以 学 习 每 个 关系 的 能 和 人 向量 将 这 种 方法 扩展 到 实体 和 关系 。 事 实 上 , 建 
模 语 言 和 通过 关系 编码 建 模 知 识 的 联系 非常 接近 ， 研 究 人 员 可 以 同时 使 用 知识 库 和 
自然 语言 句子 训练 这 样 的 实体 表示 (Bordes et oL,， 2011, 2012; Wang et oL.，2014a) ， 
或 组 合 来 自 多 个 关系 型 数据 库 的 数据 (Bordes et ol!., 2013b)。 可 能 与 这 种 模型 相关 
联 的 特定 参数 化 有 许多 种 。 早 期 关于 学 习 实 体 间 关系 的 工作 (Paccanaro and Hinton， 


?分别 可 以 在 如 下 网 址 获取 : freebase .com，cyc.com/opencyc, worqdnet .Princeton.edqu， wikiba.se 
3geneontology.org 
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2000) 假定 高 度 受 限 的 参数 形式 〈 “线性 关系 通 人 ”)， 通 稼 对 关系 使 用 与 实体 形式 不 
同 的 表示 。 例 如 ，Paccanaro and Hinton (2000) 和 Bordes et aol. (2011) 用 回 量 表示 
实体 而 天 阵 表示 关系 ， 其 思想 是 关系 在 实体 上 相当 于 运算 符 。 或 者 ， 关 系 可 以 被 认 
为 是 任何 其 他 实体 (Bordes et ,2012)， 人 允许 我 们 关于 关系 作 声明 ， 但 是 更 灵活 的 
是 将 它们 结合 在 一 起 并 建 模 联 合 分 布 的 机 制 。 

这 种 模型 的 实际 短期 应 用 是 链接 预测 (link prediction ): 预测 知识 图 谱 中 缺失 
的 弧 。 这 是 基于 旧事 实 推广 新 事实 的 一 种 形式 。 目 前 存在 的 大 多 数 知识 库 都 是 通过 
人 力 劳 动 构建 的 ， 这 往往 使 知识 库 缺 失 许 多 并 且 可 能 是 大 多 数 真 正 的 关系 。 请 查 
看 Wang et ul. (2014b) 、Lin et al. (2015) 和 Garcia-Duran et aol. (2015) 中 这 样 应 用 
的 例子 。 

我 们 很 难 评估 链接 预测 任务 上 模型 的 性 能 ， 因 为 我 们 的 数据 集 只 有 正 样本 (已 
知 是 真实 的 事实 )。 如 果 模 型 提出 了 不 在 数据 集中 的 事实 ， 我 们 不 确定 模型 是 犯 了 错 
误 还 是 发 现 了 一 个 新 的 以 前 未 知 的 事实 。 度 量 基 于 测试 模型 如 何 将 已 知 真实 事实 的 
留存 集合 与 不 太 可 能 为 真 的 其 他 事实 相 比 较 ， 因 此 有 些 不 精确 。 构 造 感 兴趣 的 负 样 
本 (可 能 为 假 的 事实 ) 的 常见 方式 是 从 真实 事实 开始 , 并 创建 该 事实 的 损坏 版 本 ,全 
如 用 随机 选择 的 不 同 实体 替换 关系 中 的 一 个 实体 。 通 用 的 测试 精度 (10% 度量 ) 计 
算 模 型 在 该 事实 的 所 有 损坏 版 本 的 前 10 匈 中 选择 “正确 ”事实 的 次 数 。 

知识 库 和 分 布 式 表示 的 另 一 个 应 用 是 词义 消 歧 (word-sense disambiguation ) 
(Navigli and Velardi, 2005; Bordes et oL., 2012)， 这 个 任务 决定 在 某 些 语 境 中 哪个 词 
的 意义 是 恰当 。 

最 后 ， 知 识 的 关系 结合 一 个 推理 过 程 和 对 自然 语言 的 理解 可 以 让 我 们 建立 一 个 
一 般 的 问答 系统 。 一 般 的 问答 系统 必须 能 处 理 输入 信息 并 记 住 重 要 的 事实 ， 并 以 之 
后 能 检索 和 推理 的 方式 组 织 。 这 仍然 是 一 个 困难 的 开放 性 问题 ， 只 能 在 受 限 的 “ 玩 
有 具 ”环境 下 解决 。 目 前 ， 记 住 和 检索 特定 声明 性 事实 的 最 佳 方法 是 使 用 显 式 记忆 机 
制 ， 如 第 10.12 节 所 述 。 记 忆 网 络 最 开始 是 被 用 来 解决 一 个 玩具 问答 任务 (Weston 
et al., 2014)。Kumar et oL. (2015b) 提出 了 一 种 扩展 ， 使 用 GRU 循环 网 络 将 输入 读 
和 人 存储 器 并 且 在 给 定 存 储 器 的 内 容 后 产生 回答 。 

深度 学 习 已 经 应 用 于 其 他 许多 应 用 (除了 这 里 描述 的 应 用 以 外 )， 并 且 肯 和 定 会 在 
此 之 后 应 用 于 更 多 的 场景 。 我 们 不 可 能 全 面 描述 与 此 主题 相关 的 所 有 应 用 。 本 项 调 
查 尽 可 能 地 提供 了 在 本 文 写 作 之 时 的 代表 性 样本 

第 二 部 分 介绍 了 涉及 深度 学 习 的 现代 实践 ， 包 括 了 所 有 非常 成 功 的 方法 。 一 般 
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而 言 ， 这 些 方法 使 用 代价 天 数 的 梯度 寻找 模型 (近似 于 某 些 所 期 望 的 函数 ) 的 参数 。 
当 具 有 足够 的 训练 数据 时 ， 这 种 方法 是 非常 强大 的 。 我 们 现在 转 到 第 三 部 分 ， 开 始 
进入 研究 领域 ， 旨 在 使 用 较 少 的 训练 数据 或 执行 更 多 样 的 任务 。 而 且 相 比 目 前 为 止 
所 描述 的 情况 ， 其 中 的 挑战 更 困难 并 且 远 远 没 有 解决 。 
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本 书 这 一 部 分 措 述 目前 研究 社 群 所 追求 的 、 更 有 远见 和 更 先进 的 深度 学 习 方法 。 

在 本 书 的 前 两 部 分 ， 我 们 已 经 展示 了 如 何 解决 监督 学 习 问题 ， 即 在 给 定 足 够 的 
映射 样本 的 情况 下 ， 学 习 将 一 个 向 量 映射 到 另 一 个 。 

我 们 想 要 解决 的 问题 并 不 全 都 属于 这 个 类 别 。 我 们 可 能 希望 生成 新 的 样本 、 或 
确定 一 个 点 的 似 然 性 、 或 处 理 缺失 值 以 及 利用 一 组 大 量 的 未 标记 样本 或 相关 任务 的 
样本 。 当 前 应 用 于 工业 的 最 先进 技术 的 缺点 是 我 们 的 学 习 算法 需要 大 量 的 监督 数据 
才能 实现 良好 的 精度 。 在 本 书 这 一 部 分 ， 我 们 讨论 一 些 推测 性 的 方法 ， 来 减少 现 有 
模型 工作 所 需 的 标注 数据 量 ， 并 适用 于 更 广泛 的 任务 。 实 现 这 些 目标 通常 需要 某 种 
形式 的 无 监督 或 半 监 督学 习 。 

许多 深度 学 习 算法 被 设计 为 处 理 无 监督 学 习 问 题 ， 但 不 像 深度 学 习 已 经 在 很 大 
程度 上 解决 了 各 种 任务 的 监督 学 习 问题 ， 没 有 一 个 算法 能 以 同样 的 方式 真正 解决 无 
监督 学 习 问题 。 在 本 书 这 一 部 分 ， 我 们 描述 无 监督 学 习 的 现 有 方法 和 一 些 如 何在 这 
一 领域 取得 进展 的 流行 思想 。 

无 监督 学 习 困难 的 核心 原因 是 被 建 模 的 随机 变量 的 高 维度 。 这 带 来 了 两 个 不 同 
的 挑战 : 统计 挑战 和 计算 挑战 。 统 计 挑战 与 泛 化 相关 : 我 们 可 能 想 要 区 分 的 配置 数 
会 随 着 感 兴趣 的 维度 数 指数 增长 ， 并 且 这 快速 变 得 比 可 能 具有 的 〈 或 者 在 有 限 计算 
资源 下 使 用 的 ) 样本 数 大 得 多 。 与 高 维 分 布 相 关联 的 计算 挑战 之 所 以 会 出 现 ， 是 因 
为 用 于 学 习 或 使 用 训练 模型 的 许多 算法 〈 特别 是 基于 估计 显 式 概率 函数 的 算法 ) 涉 
及 难处 理 的 计算 量 ， 并 且 随 维 数 呈 指数 增长 。 

使 用 概率 模型 ， 这 种 计算 挑战 来 自 执行 难 解 的 推断 或 归 一 化 分 布 。 














e 难 解 的 推断 : 推断 主要 在 第 十 九 音 讨 论 。 推 新 关于 捕获 c，! 和 c 上 联合 分 布 的 
模型 ， 给 定 其 他 变量 的 情况 下 ， 猜 测 一 些 变量 a 的 可 能 值 。 为 了 计算 这 样 的 
条 件 概 率 ， 我 们 需要 对 变量 c 的 值 求 和 ,以 及 计算 对 a 和 e 的 值 求 和 的 归 一 化 
常数 。 








难 解 的 归 一 化 常数 〈 配 分 函数 ) : 配 分 困 数 主要 在 第 十 八 章 讨 论 。 归 一 化 概 
率 国 数 的 常数 在 推 灯 (上 文 ) 以 及 学 习 中 出 现 。 许 多 概率 模型 涉及 这 样 的 归 
一 化 常数 。 不 笠 的 是 ,学 习 这 样 的 模型 通 党 需要 相对 于 模型 参数 计算 配 分 函 
数 对 数 的 梯度 。 该 计算 通常 与 计算 配 分 轴 数 本 身 一 样 难 解 。 马 尔 可 夫 链 蒙特 
卡 罗 〈MCMC )〈 第 十 七 章 ) 通常 用 于 处 理 配 分 末 数 。 不 幸 的 是 ， 当 模型 分 
布 的 模式 众多 且 分 离 良 好 时 ，MCMC 方 法 会 出 现 问题 ， 特 别 是 在 高 维 空间 中 
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面 对 这 些 难以 处 理 的 计算 的 一 种 方法 是 近似 它们 ， 如 在 本 书 的 第 三 部 分 中 讨论 
的 ,研究 者 已 经 提出 了 许多 方法 。 这 里 还 讨论 另 一 种 有 趣 的 方式 是 通过 设计 模型 ， 完 
全 避免 这 些 难 以 处 理 的 计算 ， 因 此 不 需要 这 些 计算 的 方法 是 非常 有 吸引 力 的 。 近 年 
来 ， 研 究 者 已 经 提出 了 数 种 具有 该 动机 的 生成 模型 。 其 中 第 二 十 章 讨 论 了 各 种 各 样 
的 现代 生成 式 建 模 方 法 。 

第 三 部 分 对 于 研究 者 来 说 是 最 重要 的 ， 研 究 者 想 要 了 解 深 度 学 习 领 域 的 广度 ， 
并 将 领域 推 向 真正 的 人 工 智 能 。 
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许多 深度 学 习 的 研究 前 沿 均 涉 及 构建 输入 的 概率 模型 pmoas(z)。 原 则 上 说 ， 给 
定 任 何其 他 变量 的 情况 下 ， 这 样 的 模型 可 以 使 用 概率 推断 来 预测 其 环境 中 的 任何 变 
量 。 许多 这 样 的 模型 还 具有 潜 变 量 忆 ， 其 中 Dmodel(Z) 二 芭 7 Dmodel( 2 | 九 )。 这 些 潜 变 
量 提 供 了 表示 数据 的 另 一 种 方式 。 我 们 在 深度 前 馈 网 络 和 循环 网 络 中 已 经 发 现 ， 基 
于 洪 变 量 的 分 布 式 表示 继承 了 表示 学 习 的 所 有 优点 。 

在 本 章 中 ， 我 们 描述 了 一 些 基 于 潜 变 量 的 最 简单 的 概率 模型 : 线性 因子 模型 
(linear factor model )。 这 些 模型 有 时 被 用 来 作为 混合 模型 的 组 成 模块 (Hinton et ol.， 
1995a; Ghahramani and Hinton，1996; Roweis et al., 2002) 或 者 更 大 的 深度 概率 模 
型 (Tang et w., 2012)。 同 时 ， 也 介绍 了 构建 生成 模型 所 需 的 许多 基本 方法 ， 在 此 基 
础 上 更 先进 的 深度 模型 也 将 得 到 进一步 扩展 。 

线性 因子 模型 通过 随机 线性 解码 器 函数 来 定义 ， 该 函数 通过 对 疡 的 线性 变换 以 
及 添加 噪声 来 生成 z。 

有 趣 的 是 ， 通 过 这 些 模 型 我 们 能 够 发 现 一 些 符合 简单 联合 分 布 的 解释 性 因子 。 
线性 解码 器 的 简单 性 使 得 它们 成 为 了 最 早 被 广泛 研究 的 潜 变 量 模型 。 

线性 因子 模型 描述 如 下 的 数据 生成 过 程 。 首 先 ， 我 们 从 一 个 分 布 中 抽取 解释 性 
因子 刀 















































Ph ~ p( 门 ， (13.1) 


其 中 z 癌 是 一 个 因子 分 布 ， 满 足 p( 千 = TL, Pa)， 所 以 易于 从 中 采样 。 接 下 来 在 
给 定 因子 的 情况 下 ， 我 们 对 实 值 的 可 观察 变量 进行 采样 











和 开 二 全 丸 十 放 十 noise， (13.2) 


其 中 噪声 通常 是 对 角 化 的 〈 在 维度 上 是 独立 的 ) 上 且 服 从 高 斯 分 布 。 这 在 图 13.1 有 具 
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体 说 明 。 














图 13.1: 描述 线性 因子 模型 族 的 有 向 图 模型 ， 其 中 我 们 假设 观察 到 的 数据 向 量 z 是 通过 独立 的 潜 
在 因子 到 的 线性 组 合 再 加 上 一 定 噪 声 获 得 的 。 不 同 的 模型 ， 比 如 概率 PCA , 因子 分 析 或 者 是 ICA ， 
都 是 选择 了 不 同形 式 的 噪声 以 及 先 验 p( 门 。 















































13.1 概率 PCA 和 因子 分 析 


概率 PCA (probabilistic PCA ) 、 因 子 分 析 和 其 他 线性 因子 模型 是 上 述 等 式 
( 式 (13.1) 和 式 (13.2) ) 的 特殊 情况 ， 并 且 仅 在 对 观测 到 z 之 前 的 噪声 分 布 和 潜 变 量 
疡 先 验 的 选择 上 有 所 不 同 。 

在 因子 分 析 (factor analysis ) (Bartholomew，1987; Basilevsky,，1994) 中 ， 游 
变量 的 先 验 是 一 个 方差 为 单位 矩阵 的 高 斯 分 布 














h ~ (六 0, 站 ， (13.3) 


同时 ， 假 定 在 给 定 瑚 的 条 件 下 观察 值 zx; 是 条 件 独立 (conditionally independent ) 
的 。 具 体 来 说 ， 我 们 可 以 假设 噪声 是 从 对 角 协 方差 矩阵 的 高 斯 分 布 中 抽出 的 ， 协 方 
差 矩 阵 为 落 = diag(c2)， 其 中 co2 = [cz,c2,...,c2] 表示 一 个 向 量 ， 每 个 元 素 表示 
一 个 变量 的 方差 。 

因此 ， 洪 变量 的 作用 是 捕获 不 同 观测 变量 z; 之 间 的 依赖 关系 。 实 际 上 ， 可 以 容 
易 地 看 出 z 服从 多 维 正 态 分布 ， 并 满足 














xx N(m Di 全 食 二 示 ). (13.4) 


为 了 将 PCA 引入 到 概率 框架 中 ,我 们 可 以 对 因子 分 析 模 型 作 轻微 修改 ， 使 条 件 
方差 o2 等 于 同一 个 值 。 在 这 种 情况 下 ，z 的 协 方差 简化 为 环 全 -+c27， 这 里 的 o? 
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是 一 个 标量 。 由 此 可 以 得 到 条 件 分 布 ， 如 下 : 
XwNM(e Di 全 全 | 二 o2 刀 ， (13.5) 
或 者 等 价 地 


x= Th 十 1 十 cz， (13.6) 





其 中 z ~ AMW(z0, 站 是 高 斯 噪声 。 之 后 Tipping and Bishop (1999) 提出 了 一 种 欠 代 
的 EM 算法 来 估计 参数 信和 c?。 

这 个 概率 PCA (probabilistic PCA ) 模型 利用 了 这 样 一 种 观察 现象 : 除了 一 
些微 小 残余 的 重 构 误 差 ( reconstruction error ) ( 至 多 为 c2 ) ， 数 据 中 的 大 多 数 变 
化 可 以 由 潜 变量 疡 描述 。 通 过 Tipping and Bishop (1999) 的 研究 我 们 可 以 发 现 ， 当 
0 一 0 时 ， 概率 PCA 退化 为 PCA。 在 这 种 情况 下 ， 给 定 z 情况 下 户 的 条 件 期 望 等 
于 将 z 一 履 投 影 到 酌 的 d 列 所 生成 的 空间 上 ， 与 PCA 一 样 。 

当 c 一 0 时， 概率 PCA 所 定义 的 密度 冰 数 在 4d 维 的 伍 的 列 生成 空间 周围 非 
常 尖锐 。 这 导致 模型 会 为 没有 在 一 个 超 平面 附近 聚集 的 数据 分 配 非常 低 的 概率 。 


13.2 ”独立 成 分 分 析 


独立 成 分 分 析 ( independent component analysis, ICA ) 是 最 古老 的 表示 学 习 算 
法 之 一 (Herault and Ans, 1984; Jutten and Herault, 1991; Comon, 1994; Hyvarinen， 
1999; Hyvarinen et ol.,， 2001a; Hinton et ol., 2001; Teh et al., 2003)。 它 是 一 种 建 模 
线性 因子 的 方法 ， 旨 在 将 观察 到 的 信和 号 分 离 成 许多 潜在 信号 ， 这 些 潜在 信号 通过 缩 
放 和 县 加 可 以 恢复 成 观察 数据 。 这 些 信 号 是 完全 独立 的 ， 而 不 是 仅仅 彼此 不 相关 1。 

许多 不 同 的 具体 方法 被 称 为 ICA。 与 我 们 本 书 中 描述 的 其 他 生成 模型 最 相似 
的 ICA 变种 (Pham et ol., 1992) 训练 了 完全 参数 化 的 生成 模型 。 潜 在 因子 疡 的 先 验 
2p(j)， 必 须 由 用 户 提前 给 出 并 固定 。 接 着 模型 确定 性 地 生成 z = fjP。 我 们 可 以 通过 
非 线 性 变化 〈 使 用 式 (3.47) ) 来 确定 p(z)。 然 后 通过 一 般 的 方法 比如 最 大 化 似 然 进 
行 学 习 。 

这 种 方法 的 动机 是 ， 通 过 选择 一 个 独立 的 z( 闪 ， 我 们 可 以 尽 可 能 恢复 接近 独立 
的 湾 在 因子 。 这 是 一 种 常用 的 方法 , 它 并 不 是 用 来 捕捉 高 级 别 的 抽象 因果 因子 ， 而 是 


1 第 3.8 节 讨 论 了 不 相关 变量 和 独立 变量 之 间 的 差异 。 

































































420 第 十 三 章 ”线性 因子 模型 


恢复 已 经 混合 在 一 起 的 低级 别 信 号 。 在 该 设置 中 ， 每 个 训练 样本 对 应 一 个 时 刻 ， 
个 zi 是 一 个 传 感 需 对 混合 信和 号 的 观察 值 ， 并 且 每 个 访 是 单个 原始 信号 的 一 个 估计 。 
例如 ， 我 们 可 能 有 ”个 人 同时 说 话 。 如 果 我 们 在 不 同位 置 放置 ”个 不 同 的 麦克 风 ， 
则 ICA 可 以 检测 每 个 麦克 风 的 音量 变化 ， 并 且 分 离 信号 ， 使 得 每 个 廊 仅 包含 一 个 
人 清楚 地 说 话 。 这 通常 用 于 脑 电 图 的 神经 科学 ， 这 种 技术 可 用 于 记录 源 自 大 脑 的 电 
信和 叶 。 放 置 在 受 试 者 头 部 上 的 许多 电极 传 感 关 用 于 测量 来 自身 体 的 多 种 电信 号 。 实 
验 者 通常 仅 对 来 自 大 脑 的 信号 感 兴趣 ， 但 是 来 自 受 试 者 心 胜 和 眼睛 的 信和 号 强 到 足以 
混 消 在 受 试 者 头皮 处 的 测量 结果 。 信 和 号 到 达 电 极 ， 并 且 混 合 在 一 起 ， 因 此 为 了 分 离 
源 于 心脏 与 源 于 大 脑 的 信号 ， 并 且 将 不 同 脑 区 域 中 的 信号 彼此 分 离 ，ICA 是 必要 的 。 

如 前 所 述 ，ICA 存在 许多 变种 。 一 些 版 本 在 z 的 生成 中 添加 一 些 噪声 ， 而 不 是 
使 用 确定 性 的 解码 器 。 大 多 数 方法 不 使 用 最 大 似 然 准则 ， 而 是 民 在 使 刀 = 全 z 的 
元 素 彼 此 独立 。 许 多 准则 能 够 达成 这 个 目标 。 式 (3.47) 需要 用 到 例 的 行列 式 ， 这 可 
能 是 代价 很 高 且 数 值 不 稳定 的 操作 。ICA 的 一 些 变种 通过 将 人 三 约束 为 正 交 来 避免 
这 个 有 问题 的 操作 。 

ICA 的 所 有 变种 均 要 求 p(j 是 非 高 斯 的 。 这 是 因为 如 果 pz( 问 是 具有 高 斯 分 量 
的 独立 先 验 , 则 琵 是 不 可 识别 的 。 对 于 许多 人 三 值 ， 我 们 可 以 在 z(z) 上 获得 相同 
的 分 布 。 这 与 其 他 线性 因子 模型 有 很 大 的 区 别 ， 例 如 概率 PCA 和 因子 分 析 通 带 要 求 
2(j) 是 高 斯 的 ， 以 便 使 模型 上 的 许多 操作 具有 闭 式 解 。 在 用 户 明 确 指定 分 布 的 最 大 
似 然 方法 中 ， 一 个 典型 的 选择 是 使 用 p( 访 ) = 瑚 (Ps)。 这 些 非 高 斯 分 布 的 典型 选择 
在 0 附近 具有 比 高 斯 分 布 更 高 的 峰值 ， 因 此 我 们 也 可 以 看 到 独立 成 分 分 析 经 党 用 于 
学 习 稀 玻 特征 。 

按照 我 们 对 生成 模型 这 个 术语 的 定义 ，ICA 的 许多 变种 不 是 生成 模型 。 在 本 书 
中 ， 生 成 模型 可 以 直接 表示 Z(m]， 也 可 以 认为 是 从 p(z) 中 抽取 样本 。ICA 的 许多 
变种 仅 知 道 如 何在 z 和 户 之 间 变 换 ， 而 没有 任何 表示 P( 加 的 方式 ， 因 此 也 无 法 在 
2D(z) 上 施加 人 分布。 例如， 许多 ICA 变量 则 在 增加 产 = 信 zz 的 样本 峰 度 ， 因 为 高 
峰 度 说 明了 p(j) 是 非 高 斯 的 ， 但 这 是 在 没有 显 式 表示 2P( 和 的 情况 下 完成 的 。 这 就 
是 为 什么 ICA 多 被 用 作 分离 信 号 的 分 析 工 具 ， 而 不 是 用 于 生成 数据 或 估计 其 密度 。 

正如 PCA 可 以 推广 到 第 十 四 章 中 描述 的 非 线性 自 编 码 器 ，ICA 也 可 以 推广 到 
非 线 性 生成 模型 ， 其 中 我 们 使 用 非 线性 函数 上 来 生成 观测 数据 。 关 于 非 线性 ICA 最 
初 的 工作 可 以 参考 Hyvirinen and Pajunen (1999)， 它 和 集成 学 习 的 成 功 结合 可 以 参 
见 Roberts and Everson (2001); Lappalainen et wL. (2000)。ICA 的 另 一 个 非 线 性 扩 
展 是 非 线性 独立 成 分 估计 (nonlinear independent components estimation，NICE ) 
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方法 (Dinh et al.，2014)， 这 个 方法 堆 琶 了 一 系列 可 逆 变 换 〈 在 编码 需 阶 段 )， 其 特 
性 是 能 高 效 地 计算 每 个 变换 的 Jacobian 行列 式 。 这 使 得 我 们 能 够 精确 地 计算 似 然 ， 
并 且 像 ICA 一 样 ，NICE 尝试 将 数据 变换 到 具有 因子 的 边缘 分 布 的 空间 。 由 于 非 线 
性 编码 璐 的 使 用 ， 这 种 方法 更 可 能 成 功 。 因 为 编码 器 和 一 个 能 进行 完美 逆 变 换 的 解 
码 器 相关 联 ， 所 以 可 以 直接 从 模型 生成 样本 〈 首先 从 pz(j 采样 ， 然 后 使 用 解码 器 )。 


ICA 的 另 一 个 推广 是 通过 茧 励 组 内 统计 依赖 关系 、 抑 制 组 间 依 赖 关 系 来 学 习 
特征 组 (Hyvirinen and Hoyer，1999; Hyvairinen et al.,，2001b)。 当 相关 单元 的 组 被 
选 为 不 重 赫 时， 这 被 称 为 独立 子 空 间 分 析 (independent subspace analysis )。 我 们 
还 可 0 间 坐 标 ， 并 且 空 间 上 相 邻 的 单元 组 形成 一 定 程度 的 重 
琶 。 这 能 够 鼓励 相 邻 的 单元 学 习 类 似 的 特征 。 当 应 用 于 自然 图 像 时 ， 这 种 地质 ICA 
(topographic ICA ) 方法 可 以 学 习 Gabor 滤波 器 ， 从 而 使 得 相 邻 特征 具有 相似 的 方 
向 、 位 置 或 频率 。 在 每 个 区 域内 出 现 类 似 Gabor 函数 的 许多 不 同 相 位 存在 抵消 作用 ， 
使 得 在 小 区 域 上 的 池 化 产生 了 平移 不 变性 。 
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慢 特 征 分 析 (slow feature analysis, SFA ) 是 使 用 来 自 时 间 信 和 号 的 信息 学 习 不 变 
特征 的 线性 因子 模型 (Wiskott and Sejnowski, 2002)。 

慢 特 征 分 析 的 想法 源 于 所 谓 的 慢性 原则 ( slowness principle )。 其 基本 思 ， 
ER 场景 的 重要 特性 通常 变化 得 非常 
在 计算 机 视觉 中 ， 单 个 像素 值 可 以 非常 快速 地 改变 。 如 果 斑 马 从 左 到 右 移动 穿 过 图 
像 并 且 它 的 条 纹 穿 过 对 应 的 像素 时 ， 该 像素 将 迅速 从 黑色 变 为 白色 ， 并 再 次 恢复 成 
黑色 。 通 过 比较 ， 指 示 斑 马 是 否 在 图 像 中 的 特征 将 不 发 生 改 变 ， 并 且 描 述 斑马 位 置 
的 特征 将 缓慢 地 改变 。 因 此 ， 我 们 可 能 希望 将 模型 正则 化 ， 从 而 能 够 学 习 到 那些 随 
时 间 变 化 较为 缓慢 的 特征 。 

慢性 原则 早 于 慢 特征 分 析 , 并 已 被 应 用 于 各 种 模型 (Hinton, 1989; F6ldigalk, 1989; 
Mobahi et al1., 2009; Bergstra and Bengio, 2009)。 一 般 来 说 , 我 们 可 以 将 慢性 原则 应 
和 性 原则 ， 我 们 可 以 向 代 

价 函 数 添 加 以 下 项 

















人 jzttD), F(zG))， (13.7) 
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其 中 入 是 确定 慢 度 正则 化 强度 的 超 参数 项 , 上 是 样本 时 间 序 列 的 索引 ，/ 六 是 需要 正则 
化 的 特征 提取 器 , 工 是 测量 ffz5) 和 /ztt+D0) 之 间 的 距离 的 损失 函数 。 荆 的 一 个 
篆 见 选择 是 均 方 误差 。 

慢 特征 分 析 是 慢性 原则 中 一 个 特别 高 效 的 应 用 。 由 于 它 被 应 用 于 线性 特征 提取 
器 ， 并 且 可 以 通过 闭 式 解 训练 ， 所 以 它 是 高 效 的 。 像 ICA 的 一 些 变种 一 样 ，SFA 本 
身 并 不 是 生成 模型 ， 只 是 在 输入 空间 和 特征 空间 之 间 定 义 了 一 个 线性 映射 ， 但 是 没 
有 定义 特征 空间 的 先 验 ， 因 此 没有 在 输入 空间 上 施加 分 布 p(z)。 

SFA 算法 (Wiskott and Sejnowski, 2002) 先 将 /cz; 0) 定义 为 线性 变换 ， 然 后 求 
解 如 下 优化 问题 


















































min 了 BtA(z 7 一 丰 2 (13.8) 
并 且 满 足下 面 的 约束 ; 
BE; F(zt); 一 0 (13.9) 
以 及 
Pi[F(zt)3] 一 1 (13.10) 


学 习 特 征 具 有 零 均 值 的 约束 对 于 使 问题 具有 唯一 解 是 必要 的 ; 否则 我 们 可 以 向 所 有 特 
征 值 添加 一 个 常数 ， 并 获得 具有 相等 慢 度 目标 值 的 不 同 解 。 特 征 具 有 单位 方差 的 约 
束 对 于 防止 所 有 特征 趋 近 于 0 的 病态 解 是 必要 的 。 与 PCA 类 似 ，SFA 特征 是 有 序 
的 ， 其 中 学 习 第 一 特征 是 最 慢 的 。 要 学 习 多 个 特征 ， 我 们 还 必须 添加 约束 














Vi<7 也 [zt)iF(zoO) 让 = 0. (13.11) 





这 要 求学 习 的 特征 必须 彼此 线性 去 相关 。 没 有 这 个 约束 ， 所 有 学 习 到 的 特征 将 简单 
地 捕获 一 个 最 慢 的 信号 。 可 以 想象 使 用 其 他 机 制 ， 如 最 小 化 重 构 误 差 ， 也 可 以 迫使 
特征 多 样 化 。 但 是 由 于 SFA 特征 的 线性 ， 这 种 去 相关 机 制 只 能 得 到 一 种 简单 的 解 。 
SFA 问题 可 以 通过 线性 代数 软件 获得 闭 式 解 。 

在 运行 SFA 之 前 ，SFA 通常 通过 对 z 使 用 非 线性 的 基 扩充 来 学 习 非 线性 特征 。 
例如 ， 通 常用 z 的 一 次 基 扩 充 来 代替 原 来 的 z， 得 到 一 个 包含 所 有 zizj 的 向 量 。 由 
此 ， 我 们 可 以 通过 反复 地 学 习 一 个 线性 SFA 特征 提取 器 ， 对 其 输出 应 用 非 线性 基 扩 
展 ， 然 后 在 该 扩展 之 上 学 习 另 一 个 线性 SFA 特征 提取 器 的 方式 来 组 合 线性 SFA 模 
块 从 而 学 习 深度 非 线性 慢 特 征 提取 器 。 
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当 在 自然 场景 视频 的 小 块 空间 部 分 上 训练 时 ， 使 用 二 次 基 扩 展 的 SFA 所 学 习 
到 的 特征 与 V1 皮层 中 那些 复杂 细胞 的 特征 有 许多 共同 特性 (Berkes and Wiskott， 
2005)。 当 在 计算 机 泻 染 的 3D 环境 内 随机 运动 的 视频 上 训练 时 ， 深 度 SFA 模型 能 
够 学 习 的 特征 与 大 鼠 脑 中 用 于 导航 的 神经 元 学 到 的 特征 有 许多 共同 特性 (Franzius 
et dl, 2007)。 因 此 从 生物 学 角度 上 来 说 SFA 是 一 个 合理 的 有 依据 的 模型 。 

SFA 的 一 个 主要 优点 是 ， 即 使 在 深度 非 线性 条 件 下 ， 它 依然 能 够 在 理论 上 预 
测 SFA 能 够 学 习 哪 些 特 征 。 为 了 做 出 这 样 的 理论 预测 ， 必 须知 道 关 于 配置 空间 的 环 
境 动力 (例如 , 在 3D 泻 染 环境 中 随机 运动 的 例子 中 ,理论 分 析 是 从 相机 位 置 、 速 度 
的 概率 分 布 中 人 手 的 )。 已 知 潜在 因子 如 何 改 变 的 情况 下 ， 我 们 能 够 通过 理论 分 析 解 
出 表达 这 些 因子 的 最 佳 函 数 。 在 实践 中 ， 基 于 模拟 数据 的 实验 上 ， 使 用 深度 SFA 似 
乎 能 够 恢复 理论 预测 的 函数 。 相 比 之 下 ， 在 其 他 学 习 算 法 中 ， 代 价 函 数 高 度 依赖 于 
特定 像素 值 ， 使 得 难以 确定 模型 将 学 习 到 什么 特征 。 

深度 SFA 也 已 经 被 用 于 学 习 用 在 对 象 识别 和 姿态 估计 的 特征 (Franzius et ol， 
2008)。 到 目前 为 止 ， 慢 性 原则 尚未 成 为 任何 最 先进 应 用 的 基础 。 究 竟 是 什么 因素 限 
制 了 其 性 能 仍 有 竺 研究 。 我 们 推测 ， 或 许 慢 度 先 验 太 过 强势 ， 并 且 ， 最 好 添加 这 样 
一 个 先 验 使 得 当前 时 间 步 到 下 一 个 时 间 步 的 预测 更 加 容易 ， 而 不 是 加 一 个 先 验 使 得 
特征 近似 为 一 个 常数 。 对 象 的 位 置 是 一 个 有 用 的 特征 ， 无 论 对 象 的 速度 是 高 还 是 低 。 
但 慢性 原则 鼓励 模型 忽略 具有 高 速度 的 对 象 的 位 置 。 
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稀疏 编码 ( sparse coding ) (Olshausen and Field, 1996) 是 一 个 线性 因子 模型 ， 
已 作为 一 种 无 监督 特征 学 习 和 特征 提取 机 制 得 到 了 广泛 研究 。 严 格 来 说 ， 术 话 “ 稀 踊 
编码 ”是 指 在 该 模型 中 推断 产值 的 过 程 ， 而 “ 稀 踊 建 模 ”是 指 设 计 和 学 习 模型 的 过 
程 ， 但 是 通常 这 两 个 概念 都 可 以 用 术语 “ 稀 踊 编码 ”描述 。 

像 大 多 数 其 他 线性 因子 模型 一 样 ， 它 使 用 了 线性 的 解码 器 加 上 噪声 的 方式 获得 
一 个 z 的 重 构 ， 就 像 式 (13.2) 描述 的 一 样 。 更 具体 地 说 ， 稀 玻 编 码 模型 通常 假设 线 
性 因子 有 一 个 各 向 同性 精度 为 8 的 高 斯 噪声 : 

















大 二 而 三 大 区 入 大 5 (13.19) 


分 布 p( 站 通常 选取 为 一 个 峰值 很 僚 锐 且 接 近 0 的 分 布 (Olshausen and Field， 
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1996)。 和 常见 的 选择 包括 可 分 解 的 Laplace、Cauchy 或 者 可 分 解 的 Student-t 分 布 。 
例如 ， 以 稀 下 惩 罚 系 数 入 为 参数 的 Laplace 先 验 可 以 表示 为 








2D( 访 ) = Laplacel(i; 0， 7) 一 el (13.13) 
相应 的 ，Student-t 先 验 分 布 可 以 表示 为 
| 
也 几 ;) cx 和 13.14 
ee 


使 用 最 大 似 然 的 方法 来 训练 稀 玻 编码 模型 是 不 可 行 的 。 相 反 ， 为 了 在 给 定编 码 
的 情况 下 更 好 地 重 构 数据 ， 训 练 过 程 在 编码 数据 和 训练 解码 器 之 间 交 替 进 行 。 稍 后 
在 第 19.3 节 中 ， 这 种 方法 将 被 进一步 证 明 为 是 解决 最 大 似 然 问题 的 一 种 通用 的 近似 
方法 。 
对 于 诸如 PCA 的 模型 ， 我 们 已 经 看 到 使 用 了 预测 疡 的 参数 化 的 编码 融 卫 数 ， 
并 且 该 函数 仅 包 括 乘 以 权重 和 矩 阵 。 稀 玻 编 码 中 的 编码 器 不 是 参数 化 的 编码 器 。 相 反 ， 
编码 需 是 一 个 优化 算法 ， 在 这 个 优化 问题 中 ， 我 们 寻找 单个 最 可 能 的 编码 值 : 
妨 = jz) =argmaxD( 疡 | z). (13.15) 
有 











结合 式 (13.13) 和 式 (13.12) ， 我 们 得 到 如 下 的 优化 问题 


argImax DP( 疡 | 2) (13.16) 
有 

一 argmax logp( 严 | z) (13.17) 
有 

= argmin 和 ji 二 Blz 一杯 几 | 2 (13.18) 
有 





其 中 ,我们 扔 掉 了 与 声 无 关 的 项 ， 并 除 以 一 个 正 的 缩放 因子 来 简化 表达 。 

由 于 在 玉 上 施加 瑟 范 数 ， 这 个 过 程 将 产生 稀 玻 的 产 〈 详 见 第 7.1.2 节 )。 

为 了 训练 模型 而 不 仅仅 是 进行 推断 ， 我 们 交替 和 迭代 关于 万 和 葬 的 最 小 化 过 程 。 
在 本 文中 ， 我 们 将 6 视 为 超 参 数 。 我 们 通常 将 其 设置 为 1， 因 为 它 在 此 优化 问题 的 
作用 与 类似， 没有 必要 使 用 两 个 超 参 数 。 原 则 上 ， 我 们 还 可 以 将 8 作为 模型 的 参 
数 ， 并 学 习 它 。 我 们 在 这 里 已 经 放弃 了 一 些 不 依赖 于 天 但 依赖 于 8 的 项 。 要 学 习 B， 
必须 包含 这 些 项 ， 和 否则 8 将 退化 为 0。 

不 是 所 有 的 稀 臣 编码 方法 都 显 式 地 构建 了 一 个 P( 站 和 一 个 p(z | 站 。 通 带 我 们 
只 是 对 学 习 一 个 帝 有 激活 值 的 特征 的 字典 感 兴趣 ， 当 特征 是 由 这 个 推 斯 过 程 提取 时 ， 
这 个 激活 值 通常 为 0。 
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如 果 我 们 从 Laplace 先 验 中 采样 疡 , 瑚 的 元 素 实 际 上 为 0 是 一 个 零 概 率 事件 。 生 
成 模型 本 身 并 不 稀 琉 ， 只 有 特征 提取 需 是 稀疏 的 。Goodfellow et ol. (20138) 摘 述 了 
不 同 模型 族 中 的 近似 推 新 ， 如 尖峰 和 平板 稀 玻 编码 模型 ， 其 中 先 验 的 样本 通 带 包含 
许多 真正 的 0。 

与 非 参数 编码 需 结 合 的 稀 琉 编码 方法 原则 上 可 以 比 任何 特定 的 参数 化 编码 器 更 
好 地 最 小 化 重 构 误 差 和 对 数 先 验 的 组 合 。 另 一 个 优点 是 编码 器 没有 泛 化 误差 。 人 参数 
化 的 编码 器 必须 泛 化 地 学 习 如 何 将 z 映射 到 ji 对 于 与 训练 数据 差异 很 大 的 异常 
Z， 所 学 习 的 参数 化 编码 器 可 能 无 法 找到 对 应 精确 重 构 或 稀 玻 的 编码 。 对 于 稀 玻 编 
码 模型 的 绝 大 多 数 形式 ， 推 怕 问 题 是 凸 的 ， 优 化 过 程 总 能 找到 最 优 编码 〈 除非 出 现 
退化 的 情况 ， 例 如 重复 的 权重 向 量 )。 显 然 ， 稀 玻 和 重 构成 本 仍然 可 以 在 不 熟悉 的 点 
上 升 ， 但 这 归 因 于 解码 器 权重 中 的 泛 化 误差 ， 而 不 是 编码 器 中 的 泛 化 误差 。 当 稀 玻 
编码 用 作 分 类 器 的 特征 提取 器 ， 而 不 是 使 用 参数 化 的 函数 来 预测 编码 值 时 ， 基 于 优 
化 的 稀 玻 编码 模型 的 编码 过 程 中 较 小 的 泛 化 误差 可 以 得 到 更 好 的 泛 化 能 力 。Coates 
and Ng (2011) 证 明了 在 对 象 识别 任务 中 稀 玻 编码 特征 比 基 于 参数 化 的 编码 器 〈( 线 
性 -sigmoid 自 编 码 顺 ) 的 特征 拥有 更 好 的 泛 化 能 力 。 受 他 们 的 工作 启发 ，Goodfellow 
ef al/. (2013f) 表明 一 种 稀 玻 编码 的 变 体 在 标签 极 少 〈 每 类 20 个 或 更 少 标签 ) 的 情况 
中 比 相 同情 况 下 的 其 他 特征 提取 器 拥有 更 好 的 谤 化 能 

非 参数 编码 器 的 主要 缺点 是 在 给 定 z 的 情况 下 需要 大 量 的 时 间 来 计算 疡 ， 因 为 
非 参数 方法 需要 运行 欠 代 算法 。 在 第 十 四 章 中 讲 到 的 参数 化 自 编码 器 方法 仅 使 用 固 
定数 量 的 层 ， 通 常 只 有 一 层 。 另 一 个 缺点 是 它 不 直接 通过 非 参 数 编码 器 进行 反 向 传 
播 ， 这 使 得 我 们 很 难 采 用 先 使 用 无 监督 方式 预 训练 稀 玻 编码 模型 然后 使 用 监督 方式 
对 其 进行 精 调 的 方法 。 人 允许 近似 导数 的 稀 玻 编码 模型 的 修改 版 本 确实 存在 但 未 被 广 
泛 使 用 (Bagnell and Bradley, 2009)。 

像 其 他 线性 因子 模型 一 样 ， 稀 玻 编 码 经 常 产 生 糟糕 的 样本 ， 如 图 13.2 所 示 。 即 
使 当 模 型 能 够 很 好 地 重 构 数 据 并 为 分 类 器 提供 有 用 的 特征 时 ， 也 会 发 生 这 种 情况 。 
这 种 现象 发 生 的 原因 是 每 个 单独 的 特征 可 以 很 好 地 被 学 习 到 ， 但 是 隐藏 编码 值 的 
子 先 验 会 导致 模型 包括 每 个 生成 样本 中 所 有 特征 的 随机 子 集 。 这 促使 人 们 开发 更 深 
的 模型 ， 可 以 在 其 中 最 深 的 编码 层 施加 一 个 非 因子 分 布 ， 与 此 同时 也 在 开发 一 些 复 
杂 的 浅 度 模型 。 
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图 13.2: 尖峰 和 平板 稀 玻 编码 模型 上 在 MNIST 数据 集训 练 的 样 例 和 权重 。( 左 ) 这 个 模型 中 的 样 
本 和 训练 样本 相差 很 大 。 第 一 眼看 来 ， 我 们 可 能 认为 模型 拟 合 得 很 差 。( 右 ) 这 个 模型 的 权重 向 量 
已 经 学 习 到 了 如 何 表示 笔迹 ， 有 时 候 还 能 写 完 整 的 数字 。 因 此 这 个 模型 也 学 习 到 了 有 用 的 特征 。 问 
题 在 于 特征 的 因子 先 验 会 导致 特征 子 集合 随机 的 组 合 。 一 些 这 样 的 子 集 能 够 合成 可 识别 的 MNIST 
集 上 的 数字 。 这 也 促进 了 拥有 更 强大 潜在 编码 分 布 的 生成 模型 的 发 展 。 此 图 经 Goodfellow et ol. 
(20138) 人 允许 转载 。 























13.5 “PCA 的 流 形 解释 


线性 因子 模型 , 包括 PCA 和 因子 分 析 , 可 以 理解 为 学 习 一 个 流 形 (Hinton et ol， 

1997)。 我 们 可 以 将 概率 PCA 定义 为 高 概率 的 薄饼 状 区 域 ， 即 一 个 高 斯 分 布 ， 沿 着 

某 些 轴 非 常 罕 ， 就 像 薄 饼 沿 着 其 垂直 轴 非 常平 坦 ， 但 沿 着 其 他 轴 是 细 长 的 ， 正 如 匡 

饼 在 其 水 平 轴 方 向 是 很 宽 的 一 样 。 图 13.3 解释 了 这 种 现象 。PCA 可 以 理解 为 将 该 泗 

饼 与 更 高 维 空间 中 的 线性 流 形 对 准 。 这 种 解释 不 仅 适 用 于 传统 PCA， 而 且 适 用 于 学 

习 矩 阵 厂 和 妆 的 任何 线性 自 编码 器 ,其 目的 是 使 重 构 的 = 尽 可 能 接近 于 原始 的 m。 
编码 器 表示 为 


彤 = jz) = 厂 "(z 玫 ). (13.19) 
编码 器 计算 户 的 低 维 表示 。 从 自 编码 器 的 角度 来 看 ， 解 码 需 负责 计算 重 构 : 
之 =g( 四 一 0+ TV (13.20) 


能 够 最 小 化 重 构 误差 





[lz 一 他 |?] (13.21) 
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图 13.3: 平坦 的 高 斯 能 够 描 述 一 个 低 维 流 形 附近 的 概率 密度 。 此 图 表示 了 “ 流 形 平面 ”上 “ 馅 饼 ; 

的 上 半 部 分 , 并 且 这 个 平面 穿 过 了 馅 饼 的 中 心 。 正 交 于 流 形 方向 〈 指向 平面 外 的 箭头 方向 ) 的 方差 
非常 小 ， 可 以 被 视 作 是 “噪声 "， 其 他 方向 〈 平 面 内 的 箭头 ) 的 方差 则 很 大 ， 对 应 了 “信号 ”以 及 
降 维 数据 的 坐标 系统 。 
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的 线性 编码 器 和 解码 器 的 选择 对 应 着 姜 = 厂 , 六 二 8 二 下 加 ， 卫 的 列 形成 组 标准 
正 交 基 ， 这 组 基 生 成 的 子 空间 与 协 方差 矩阵 C 




















C=E[(z-Am(z 一 由 7 (13.22) 


的 主 特征 向 量 所 生成 的 子 空间 相同 。 在 PCA 中 ， 例 的 列 是 按照 对 应 特征 值 (其 多 
部 是 实数 和 非 负数 ) 幅度 大 小 排序 所 对 应 的 特征 向 量 。 

我 们 还 可 以 发 现 C 的 特征 值 X 对 应 了 z 在 特征 向 量 vG) 方向 上 的 方差 。 如 果 
ZER2, jiERi 并且 满足 dg<D, 则 (给 定 上 述 的 几 久 太太 的 情况 下 ) 最 佳 的 重 
构 误 差 是 

















min 正 [|z 一 六 2] E 和 Xi (13.23) 
1 一 qd 十 1 
因此 ， 如 果 协 方差 矩阵 的 秩 为 4， 则 特征 值 Xw+l 到 Ap 都 为 0， 并 且 重 构 误 差 为 0。 
此 外 ， 我 们 还 可 以 证 明 上 述 解 可 以 通过 在 给 定 正 交 和 抑 阵 环 的 情况 下 最 大 化 刀 
元 素 的 方差 而 不 是 最 小 化 重 构 误 差 来 获得 。 
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某 种 程度 上 说 ， 线 性 因子 模型 是 最 简单 的 生成 模型 和 学 习 数 据 表 示 的 最 简单 模 
型 。 许 多 模型 如 线性 分 类 顺和 线性 回归 模型 可 以 扩展 到 座 度 前 馈 网 络 ， 而 这 些 线性 
因子 模型 可 以 扩展 到 自 编码 融 网 络 和 族 度 概率 模型 ， 它 们 可 以 执行 相同 任务 但 具有 
更 强大 和 更 灵活 的 模型 族 。 




















第 十 四 章 ”上 自 编码 尼 


自 编码 器 (autoencoder ) 是 神经 网 络 的 一 种 ， 经 过 训练 后 能 尝试 将 输入 复制 到 
输出 。 自 编码 器 (autoencoder ) 内 部 有 一 个 隐藏 层 刀 ， 可 以 产生 编码 (code ) 表示 
输入 。 该 网 络 可 以 看 作 由 两 部 分 组 成 : 一 个 由 函数 天 = /zz) 表示 的 编码 器 和 一 个 生 
成 重 构 的 解码 器 ”= 9( 和 由 。 图 14.1 展 示 了 这 种 架构 。 如 果 一 个 自 编 码 器 只 是 简单 地 
学 会 将 处 处 设置 为 9(j(m) = z， 那 么 这 个 自 编码 器 就 没什么 特别 的 用 处 。 相 反 ， 我 
们 不 应 该 将 自 编 码 器 设计 成 输入 到 输出 完全 相等 。 这 通 浓 需要 向 自 编码 器 强加 一 些 
约束 ， 使 它 只 能 近似 地 复制 ， 并 只 能 复制 与 训练 数据 相似 的 输入 。 这 些 约 束 强 制 模 
型 考虑 输入 数据 的 哪些 部 分 需要 被 优先 复制 ， 因 此 它 往往 能 学 习 到 数据 的 有 用 特性 。 

现代 自 编码 器 将 编码 器 和 解码 器 的 概念 推 而 广 之 ， 将 其 中 的 确定 函数 推广 为 随 
机 映 届 pencoaer( 万 | z) 和 paecoder(z | 门 。 

数 十 年 间 ， 自 编码 器 的 想法 一 直 是 神经 网 络 历 史 景象 的 一 部 分 (LeCun，1987; 
Bourlard and Kamp, 1988; Hinton and Zemel, 1994)。 传 统 自 编码 器 被 用 于 降 维 或 
特征 学 习 。 近 年 来 ， 自 编码 器 与 潜 变 量 模型 理论 的 联系 将 自 编 码 器 带 到 了 生成 式 建 
模 的 前 沿 ， 我 们 将 在 第 二 十 章 揭示 更 多 细节 。 自 编码 器 可 以 被 看 作 是 前 锁 网 络 的 一 
个 特例 ， 并 且 可 以 使 用 完全 相同 的 技术 进行 训练 ， 通 和 常 使 用 小 批量 梯度 下 降 法 〈 其 
中 梯度 基于 反 向 传播 计算 )。 不 同 于 一 般 的 前 馈 网 络 ， 自 编码 需 也 可 以 使 用 再 循环 
(recirculation ) 训练 (Hinton and McClelland,， 1988)， 这 种 学 习 算 法 基于 比较 原始 
输入 的 激活 和 重 构 输 入 的 激活 。 相 比 反 向 传播 算法 ,再 循环 算法 更 具 生 物 学 意义 , 但 
很 少 用 于 机 器 学 习 应 用 。 
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码 器 具有 两 个 组 件 : 编码 器 六 (将 z 映射 到 天) 和 解码 器 9 (将 严 映 射 到 m)。 


14.1 欠 完 备 自 编码 器 


将 输入 复制 到 输出 听 起 来 没什么 用 , 但 我 们 通常 不 关心 解码 器 的 输出 。 相 反 ， 
们 和 希望 通过 训练 自 编码 器 对 输入 进行 复制 而 使 闷 获 得 有 用 的 特性 。 











图 14.1: 自 编码 器 的 一 般 结 构 ， 通 过 内 部 表示 或 编码 疡 将 输入 z 映射 到 输出 〈 称 为 重 构 ) r。 自 编 





我 


从 自 编 码 融 获得 有 用 特征 的 一 种 方法 是 限制 疡 的 维度 比 z 小 ， 这 种 编码 维度 
小 于 输入 维度 的 自 编码 器 称 为 欠 完 备 (undercomplete ) 自 编 码 器 。 学 习 从 完备 的 表 





示 将 强制 自 编码 器 捕 提 训练 数据 中 最 显著 的 特征 。 
学 习 过 程 可 以 简单 地 摘 述 为 最 小 化 一 个 损失 函数 








Z4z 9(Cm)))， (4 





其 中 工 是 一 个 损失 琐 数 ， 惩 罚 9(J(o)) 与 z 的 差异 ， 如 均 方 误差 。 





当 解码 融 是 线性 的 且 工 是 均 方 误差 ,从 完备 的 自 编码 天 会 学 习 出 与 PCA 相同 
的 生成 子 空间 。 这 种 情况 下 ， 自 编码 融 在 训练 来 执行 复制 任务 的 同时 学 到 了 训练 数 








据 的 主 元 子 空 间 。 


因此 ， 拥 有 非 线性 编码 融 函 数 矿 和 非 线性 解码 需 胃 数 9 的 自 编码 融 能够 学 习 出 








更 强大 的 PCA 非 线性 推广 。 不 幸 的 是 ， 如 果 编 码 器 和 解码 器 被 赋予 过 大 的 容量 ， 





自 


编码 器 会 执行 复制 任务 而 捕捉 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 从 理论 上 说 , 我 们 





可 以 设想 这 样 一 个 自 编码 句 ， 它 只 有 一 维 编码 ， 但 它 具 有 一 个 非常 强大 的 非 线 公 








E 编 


码 器 ， 能 够 将 每 个 训练 数据 尺 ) 表示 为 编码 ;。 而 解码 器 可 以 学 习 将 这 些 整数 索引 
映射 回 特定 训练 样本 的 值 。 这 种 特定 情形 不 会 在 实际 情况 中 发 生 ， 但 它 清楚 地 说 明 ， 
如 果 自 编码 器 的 容量 太 大 ， 那 训练 来 执行 复制 任务 的 自 编码 器 可 能 无 法 学 习 到 数据 








集 的 任何 有 用 信息 。 
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14.2 ”正则 自 编码 器 


编码 维 数 小 于 输入 维 数 的 欠 完 备 自 编码 器 可 以 学 习 数 据 分 布 最 显著 的 特征 。 我 
们 已 经 知道 ， 如 果 赋 予 这 类 自 编码 器 过 大 的 容量 ， 它 就 不 能 学 到 任何 有 用 的 信息 。 

如 果 隐 藏 编码 的 维 数 允许 与 输入 相等 ， 或 隐藏 编码 维 数 大 于 输入 的 过 完备 
(overcomplete ) 情况 下 ， 会 发 生 类 似 的 问题 。 在 这 些 情 况 下 ， 即 使 是 线性 编码 器 和 
线性 解码 器 也 可 以 学 会 将 输入 复制 到 输出 ， 而 学 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 

理想 情况 下 ， 根 据 要 建 模 的 数据 分 布 的 复杂 性 ， 选 择 合适 的 编码 维 数 和 编码 器 、 
解码 器 容量 ， 就 可 以 成 功 训 练 任意 架构 的 自 编码 器 。 正 则 自 编码 器 提供 这 样 的 能 力 。 
正则 自 编码 器 使 用 的 损失 本 数 可 以 鼓励 模型 学 习 其 他 特性 〈 除 了 将 输入 复制 到 输 
出 )， 而 不 必 限 制 使 用 浅 层 的 编码 器 和 解码 器 以 及 小 的 编码 维 数 来 限制 模型 的 容量 。 
这 些 特性 包括 稀 玻 表示 、 表 示 的 小 导数 、 以 及 对 噪声 或 输入 缺失 的 鲁 棒 性 。 即 使 模 
型 容量 大 到 足以 学 习 一 个 无 意义 的 恒 等 冰 数 ， 非 线性 且 过 完备 的 正则 自 编码 器 仍然 
能 够 从 数据 中 学 到 一 些 关 于 数据 分 布 的 有 用 信息 。 

除了 这 里 所 描述 的 方法 〈 正 则 化 自 编码 器 最 自然 的 解释 )， 几 乎 任何 带 有 湾 变 
量 并 配 有 一 个 推断 过 程 〈 计 算 给 定 输入 的 洪 在 表示 ) 的 生成 模型 ， 都 可 以 看 作 是 自 
编码 器 的 一 种 特殊 形式 。 强 调 与 自 编码 需 联 系 的 两 个 生成 式 建 模 方 法 是 Helmholtz 
机 (Hinton et ol., 1995b) 的 衍生 模型 ， 如 变 分 自 编码 器 (第 20.10.3 节 ) 和 生成 随机 
网 络 〈 第 20.12 节 )。 这 些 变种 〈 或 衍生 ) 自 编 码 器 能 够 学 习 出 高 容量 量 过 完备 的 模 
型 ， 进 而 发 现 输入 数据 中 有 用 的 结构 信息 ， 并 且 也 无 需 对 模型 进行 正则 化 。 这 些 编 
码 显然 是 有 用 的 ， 因 为 这 些 模 型 被 训练 为 近似 训练 数据 的 概率 分 布 而 不 是 将 输入 复 
制 到 输出 。 















































14.2.1 “稀疏 自 编码 器 





稀 琉 自 编码 器 简单 地 在 训练 时 结合 编码 层 的 稀 玻 惩罚 (六 和 重 构 误差 
ZU DO)) 二 ON， (4.2) 
其 中 9( 加 是 解码 器 的 输出 ， 通 常 疡 是 编码 器 的 输出 ， 即 疡 = jz)。 
稀 玻 自 编码 器 一 般 用 来 学 习 特 征 ,， 以 便 用 于 像 分 类 这 样 的 任务 。 稀 琉 正 则 化 的 自 


编码 咒 必 须 反 映 训 练 数据 集 的 独特 统计 特征 ， 而 不 是 简单 地 充当 恒 等 丽 数 。 以 这 种 
方式 训练 ， 执 行 附 带 稀 下 惩罚 的 复制 任务 可 以 得 到 能 学 习 有 用 特征 的 模型 。 
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我 们 可 以 简单 地 将 惩罚 项 Q( 门 视 为 加 到 前 馈 网 络 的 正则 项 ， 这 个 前 馈 网 络 的 
主要 任务 是 将 输入 复制 到 输出 (无 监督 学 习 的 目标 )， 并 尽 可 能 地 根据 这 些 稀 玻 特征 
执行 一 些 监 督学 习 任务 (根据 监督 学 习 的 目标 )。 不 像 其 它 正则 项 如 权重 误 减 一 一 没 
有 直观 的 贝 叶 斯 解释 。 如 第 5.6.1 节 描述 ， 权 重 训 减 和 其 他 正则 惩罚 可 以 被 解释 为 一 
个 MAP 近似 贝 叶 斯 推断 , 正则 化 的 惩罚 对 应 于 模型 参数 的 先 验 概率 分 布 。 这 种 观点 
认为 ， 正 则 化 的 最 大 似 然 对 应 最 大 化 2(6 | 中， 相当 于 最 大 化 logp(z| 6) +logp(6)。 
logp(z| 9) 即 通常 的 数据 似 然 项 ， 参 数 的 对 数 先 验 项 log p(6) 则 包含 了 对 6 特定 值 
的 偏好 。 这 种 观点 在 第 5.6 节 有 所 描述 。 正 则 自 编码 器 不 适用 这 样 的 解释 是 因为 正则 
项 取决 于 数据 ， 因 此 根据 定义 上 (从 文字 的 正式 意义 ) 来 说 ， 它 不 是 一 个 先 验 。 虽 
然 如 此 ， 我 们 仍 可 以 认为 这 些 正 则 项 隐 式 地 表达 了 对 函数 的 偏好 。 

我 们 可 以 认为 整个 稀 朴 自 编码 器 框架 是 对 带 有 潜 变 量 的 生成 模型 的 近似 最 大 似 
然 训练 ， 而 不 将 稀 玻 惩 罚 视 为 复制 任务 的 正则 化 。 假 如 我 们 有 一 个 带 有 可 见 变 量 z 
和 潜 变 量 刀 的 模型 , 上 且 具 有 明确 的 联合 分 布 pmoasal(z, 站 = pmoael(j)pmoadel(Z | 六。 我 
们 将 pmaoasi( 门 视 为 模型 关于 潜 变量 的 先 验 分 布 ， 表 示 模 型 看 到 z 的 信念 先 验 。 这 与 
我 们 之 前 使 用 “ 先 验 ”的 方式 不 同 ， 之 前 指 分 布 p(6) 在 我 们 看 到 数据 前 就 对 模型 参 
数 的 先 验 进行 编码 。 对 数 似 然 函 数 可 分 解 为 



























































log Drmodel (z) 王 log Dmodel( 用 纪 ). (14.3) 
矿 


我 们 可 以 认为 自 编码 器 使 用 一 个 高 似 然 值 疡 的 点 估计 近似 这 个 总 和 。 这 类 似 于 稀 玻 
编码 生成 模型 《第 13.4 节 ), 但 疡 是 参数 编码 器 的 输出 ， 而 不 是 从 优化 结果 推断 出 的 
最 可 能 的 刀 。 从 这 个 角度 看 ， 我 们 根据 这 个 选择 的 产 ， 最 大 化 如 下 


log pmoadel( 几 Z) = log pmoadel(P) 十 log pmodel(Z | 用 ). (14.4) 


log pmodel(P) 项 能 被 稀疏 诱导 。 如 Laplace 先 验 ， 


入 
DPmodel(ji) 人 9 ) (14.5) 








对 应 于 绝对 值 稀 玻 惩罚 。 将 对 数 先 验 表示 为 绝对 值 惩 罚 ， 我 们 得 到 
Q( 半 = 入 》 | 和 |， (14.6) 


-logpuoaa( 同 = Oil -log 2) 二 人 (4 了 7) 
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这 里 的 常数 项 只 跟 入 有 关 。 通 常 我 们 将 和 视 为 超 参数 ， 因 此 可 以 丢弃 不 影响 参数 学 
习 的 常数 项 。 其 他 如 Student-t 先 验 也 能 诱导 稀 玻 性 。 从 稀 玻 性 导致 pmoasl(] 学 习 
成 近似 最 大 似 然 的 结果 看 ， 稀 玻 惩罚 完全 不 是 一 个 正则 项 。 这 仅仅 影响 模型 关于 潜 
变量 的 分 布 。 这 个 观点 提供 了 训练 自 编码 器 的 另 一 个 动机 : 这 是 近似 训练 生成 模型 的 
一 种 途径 。 这 也 给 出 了 为 什么 自 编码 器 学 到 的 特征 是 有 用 的 另 一 个 解释 : 它们 描述 
的 潜 变 量 可 以 解释 输入 。 

稀 玻 自 编码 器 的 早期 工作 (Ranzato et oL,，2007a, 2008) 探讨 了 各 种 形式 的 稀 
玻 性 , 并 提出 了 稀 玻 惩罚 和 log 2 项 ( 将 最 大 似 然 应 用 到 无 向 概率 模型 p(z) = 去 5(m) 
时 产生 ) 之 间 的 联系 。 这 个 想法 是 最 小 化 log 2 防止 概率 模型 处 处 具有 高 概率 ， 同 理 
强制 稀 朴 可 以 防止 自 编码 器 处 处 具有 低 的 重 构 误 差 。 这 种 情况 下 ， 这 种 联系 是 对 通 
用 机 制 的 直观 理解 而 不 是 数学 上 的 对 应 。 在 数学 上 更 容易 解释 稀 玻 惩罚 对 应 于 有 向 
模型 paoasl(j)paoaea(z | 思 中 的 logpmoael( 加 )。 

Glorot et al. (2011b) 提出 了 一 种 在 稀 玻 (和 去 噪 ) 自 编码 器 的 疡 中 实现 真正 为 
零 的 方式 。 该 想法 是 使 用 整流 线性 单元 产生 编码 层 。 基 于 将 表示 真正 推 向 零 ( 如 绝 
对 值 惩 罚 ) 的 先 验 ， 可 以 间接 控制 表示 中 零 的 平均 数量 。 









































14.2.2 ”去 噪 自 编码 器 
除了 向 代价 冰 数 增加 一 个 惩罚 项 ， 我 们 也 可 以 通过 改变 重 构 误差 项 来 获得 一 个 
能 学 到 有 用 信息 的 自 编 码 器 。 
传统 的 自 编码 央 最 小 化 以 下 目标 
Z(z ICLz)))， (14.8) 
其 中 荆 是 一 个 损失 函数 , 惩罚 g(j(mw) 与 的 差异 ,如 它们 彼此 差异 的 2 范 数 。 如 
果 模 型 被 赋予 过 大 的 容量 , 荆 仅仅 使 得 ge /学 成 一 个 恒 等 函 数 。 
相反 ， 去 品 自 编码 器 ( denoising autoencoder, DAE ) 最 小 化 
Z(z ICLa)))， (14.9) 
其 中 之 是 被 某 种 噪声 损坏 的 z 的 副本 。 因 此 去 噪 自 编码 需 必 须 撤 消 这 些 损坏 ， 而 不 
是 简单 地 复制 输入 。 
Alain and Bengio (2013) 和 Bengio et ol. (2013c) 指出 去 噪 训练 过 程 强 制 和 
9 隐 式 地 学 习 paata(z) 的 结构 。 因 此 去 噪 自 编码 器 也 是 一 个 通过 最 小 化 重 构 误 差 获 
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取 有 用 特性 的 例子 。 这 也 是 将 过 完备 、 高 容量 的 模型 用 作 自 编码 器 的 一 个 例子 一 一 
只 要 小 心 防止 这 些 模 型 仅仅 学 习 一 个 恒 等 栅 数 。 去 噪 自 编码 器 将 在 第 14.5 节 给 出 更 
多 细节 。 





14.2.3 ”惩罚 导数 作为 正则 





另 一 正则 化 自 编码 器 的 策略 是 使 用 一 个 类 似 稀 玻 自 编码 需 中 的 惩罚 项 0， 
Z(z,9g(CFo)) 十 DC wm)， (14.10) 
但 9 的 形式 不 同 : 


(Paz) = 入 》 |Vaja. (14.11) 





这 迫使 模型 学 习 一 个 在 z 变化 小 时 目标 也 没有 太 大 变化 的 函数 。 因 为 这 个 惩罚 
只 对 训练 数据 适用 ， 它 迫使 自 编码 需 学 习 可 以 反映 训练 数据 分 布 信息 的 特征 。 

这 样 正 则 化 的 自 编码 器 被 称 为 收缩 自 编码 器 (contractive autoencoder，CAE )。 
这 种 方法 与 去 噪 自 编码 器 、 流 形 学 习 和 概率 模型 存在 一 定理 论 联 系 。 收 缩 自 编码 器 将 
在 第 14.7 节 更 详细 地 描述 。 


14.3 ”表示 能 力 、 层 的 大 小 和 深度 


自 编 码 顺 通常 只 有 单 层 的 编码 器 和 解码 顺 ， 但 这 不 是 必然 的 。 实 际 上 深度 编码 
顺和 解码 器 能 提供 更 多 优势 。 

回忆 第 6.4.1 节 ， 其 中 提 到 加 深 前 馈 网 络 有 很 多 优势 。 这 些 优势 也 同样 适用 于 自 
编码 器 ， 因 为 它 也 属于 前 馈 网 络 。 此 外 ,编码 器 和 解码 顺 各 自 都 是 一 个 前 馈 网 络 ， 因 
此 这 两 个 部 分 也 能 各 自从 深度 结构 中 获得 好 处 。 

万 能 近似 定理 保证 至 少 有 一 层 隐 藏 层 且 隐藏 单元 足够 多 的 前 馈 神 经 网 络 能 以 任 
意 精 度 近似 任意 函数 (在 很 大 范围 里 )， 这 是 非 平 几 深 度 〈 至少 有 一 层 隐藏 层 ) 的 一 
个 主要 优点 。 这 意味 着 具有 单 隐 藏 层 的 自 编码 噩 在 数据 域内 能 表示 任意 近似 数据 的 
恒 等 国 数 。 但 是 ， 从 输入 到 编码 的 映射 是 浅 层 的 。 这 意味 这 我 们 不 能 任意 添加 约束 ， 
比如 约束 编码 稀 玻 。 这 度 自 编码 器 〈 编码 器 至 少 包含 一 层 额 外 隐藏 层 ) 在 给 定 足 够 
多 的 隐藏 单元 的 情况 下 ， 能 以 任意 精度 近似 任何 从 输入 到 编码 的 映射 。 
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深度 可 以 指数 地 降低 表示 某 些 函数 的 计算 成 本 。 深 度 也 能 指数 地 减少 学 习 一 些 
函数 所 需 的 训练 数据 量 。 读 者 可 以 参考 第 6.4.1 节 巩 固 次 度 在 前 乌 网 络 中 的 优势 。 

实验 中 ， 深 度 自 编码 需 能 比 相应 的 浅 层 或 线性 自 编 码 器 产生 更 好 的 压缩 效率 
(Hinton and Salakhutdinov, 2006)。 

训练 深度 自 编码 器 的 普遍 策略 是 训练 一 堆 浅 层 的 自 编码 天 来 贪心 地 预 训练 相应 
的 深度 架构 。 所 以 即使 最 终 目 标 是 训练 深度 自 编码 咒 ， 我 们 也 经 常会 遇 到 浅 层 自 编 
码 需 。 
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自 编码 需 本 质 上 是 一 个 前 锁 网 络 ， 可 以 使 用 与 传统 前 锁 网 络 相 同 的 损失 函数 和 
输出 单元 。 

如 第 6.2.2.4 市 中 描述 ， 设 计 前 馈 网 络 的 输出 单元 和 损失 本 数 普遍 策略 是 定义 一 
个 输出 分 布 p(y | z) 并 最 小 化 负 对 数 似 然 -logp(y| 四 。 在 这 种 情况 下 ，y 是 关于 目 
标的 向 量 〈 如 类 标 ) 

在 自 编码 器 中 ，z 既是 输入 也 是 目标 。 然 而 ,我 们 仍然 可 以 使 用 与 之 前 相同 的 架 
构 。 给 定 一 个 隐藏 编码 刀 ， 我 们 可 以 认为 解码 需 提 供 了 一 个 条 件 分 布 pmoaa(z | 门 。 
接着 我 们 根据 最 小 化 -log paecodaer(z | 四 来 训练 自 编码 咒 。 损 失 函 数 的 具体 形式 视 
pauecoaer 的 形式 而 定 。 就 传统 的 前 馈 网 络 来 说 ， 如 果 z 是 实 值 的 ， 那 么 我 们 通常 使 用 
线性 输出 单元 参数 化 高 斯 分 布 的 均值 。 在 这 种 情况 下 ， 负 对 数 似 然 对 应 均 方 误差 准 
则 。 类 似 地 ， 二 值 z 对 应 于 一 个 Bernoulli 分 布 ， 其 参数 由 sigmoid 输出 单元 确定 
的 。 而 离散 的 z 对 应 softmax 分 布 ， 以 此 类 推 。 在 给 定 疡 的 情况 下 ， 为 了 便于 计算 
概率 分 布 ， 输 出 变量 通常 被 视 为 是 条 件 独 立 的 ， 但 一 些 技术 〈 如 混合 密度 输出 ) 可 
以 解决 输出 相关 的 建 模 。 

为 了 更 彻底 地 与 我 们 之 前 了 解 到 的 前 铬 网 络 相 区 别 ， 我 们 也 可 以 将 编码 函数 
(encoding function) jz) 的 概念 推广 为 编码 分 布 (encoding distribution) pencoaer( 瑚 | 
Z， 如 图 14.2 中 所 示 。 


任何 潜 变 量 模型 pwoau( 用 四 ) 定义 一 个 随机 编码 器 











Dencoder( 疡 | D) 到 Dmodel( 刀 | D) (14.12) 


436 第 十 四 章 “ 自 编码 器 





图 14.2: 随机 自 编码 吉 的 结构 ， 其 中 编码 器 和 解码 器 包括 一 些 噪声 注入 ， 而 不 是 简单 的 函数 。 这 
意味 着 可 以 将 它们 的 输出 视 为 来 自分 布 的 采样 〈 对 于 编码 器 是 pencoder( 刀 | Zj， 对 于 解码 器 是 
Daecoder(Z | 站 几 








以 及 一 个 随机 解码 天 
Daecoder( 开 | 思 ) 去 Dmodel( 开 | 思 ). (14.13) 


通常 情况 下 ， 编 码 器 和 解码 需 的 分 布 没 有 必要 是 与 唯一 一 个 联合 分 布 pmoas(z, 刀 相 
容 的 条 件 分 布 。Alain et ao/. (2015) 指出 ， 在 保证 足够 的 容量 和 样本 的 情况 下 ， 将 编 
码 器 和 解码 器 作为 去 噪 自 编码 器 训练 ， 能 使 它们 渐 近 地 相 容 。 


14.5 ”去 噪 自 编码 器 


去 噪 自 编码 器 ( denoising autoencoder, DAE ) 是 一 类 接受 损坏 数据 作为 输入 ， 
并 训练 来 预测 原始 未 被 损坏 数据 作为 输出 的 自 编码 器 。 

DAE 的 训练 过 程 如 图 14.3 中 所 示 。 我 们 引入 一 个 损坏 过 程 C( 广 | x)， 这 个 条 件 
分 布 代 表 给 定数 据 样 本 x 产生 损坏 样本 文 的 概率 。 自 编码 器 则 根据 以 下 过 程 ， 从 训 
练 数据 对 (z, 如 中 学 习 重 构 分 布 (reconstruction distribution) Preconstruct(X | 文 ) : 





1. 从 训练 数据 中 采 一 个 训练 样本 z。 
2. 从 C(|x= oz) 采 一 个 损坏 样本 2z。 


3. 将 (Z， 了) 作为 训 练 样本 来 估计 上 自 编码 需 的 重 构 分 布 Dreconstruct (2 | ) 到 
Daecoder( 开 | 刀 )， 其 中 尺 是 编码 吉 上 了) 的 输出 ，Dadecoder 根据 解码 函数 9 定 
义 。 





通常 我 们 可 以 简单 地 对 负 对 数 似 然 一 logpauecoder(2 加 进行 基于 梯度 法 (如 小 批 
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量 梯度 下 降 ) 的 近似 最 小 化 。 只 要 编码 器 是 确定 性 的 ， 去 噪 自 编码 器 就 是 一 个 前 馈 
网 络 ， 并 且 可 以 使 用 与 其 他 前 馈 网 络 完 全 相同 的 方式 进行 训练 。 

















图 14.3: 去 噪 自 编码 器 代价 函数 的 计算 图 。 去 噪 自 编码 器 被 训练 为 从 损坏 的 版 本 重 构 干 净 数 据 
点 Z。 这 可 以 通过 最 小 化 损失 二 = 一 log paecoaer(z | 天 = 8 动 ) 实现 ， 其 中 这 是 样本 z 经 过 损坏 过 
程 C(zZ| D) 后 得 到 的 损坏 版 本 。 通常 ， 分 布 Dadecoder 是 因子 的 分 布 (平均 参数 由 前 馈 网 络 9 给 出 明 
































因此 我 们 可 以 认为 DAE 是 在 以 下 期 望 下 进行 随机 梯度 下 降 : 




















二 后 EC 人 (|a ]og Paecoder( 开 | 用 二 太 卫 ))， (14.14) 


其 中 Daata(z) 是 训练 数据 的 分 布 。 











14.5.1 得 分 估计 


得 分 匹配 (Hyvarinen, 2005a) 是 最 大 似 然 的 代替 。 它 提供 了 概率 分 布 的 一 致 估 
计 ， 倪 使 模型 在 各 个 数据 点 z 上 获得 与 数据 分 布 相 同 的 得 分 (score )。 在 这 种 情况 
下 ， 得 分 是 一 个 特定 的 梯度 场 : 


Vzlogp(z). (14.15) 


我 们 将 在 第 18.4 节 中 更 详细 地 讨论 得 分 匹配 。 对 于 现在 讨论 的 自 编 码 咒 ， 理 解 
学 习 log paata 的 梯度 场 是 学 习 paata 结构 的 一 种 方式 就 足够 了 。 

DAE 的 训练 准则 〈 条 件 高 斯 ptz | 各 ) 能 让 自 编 码 顺 学 到 能 估计 数据 分 布 得 分 
的 向 量 场 (9(j(m)) -四 ， 这 是 DAE 的 一 个 重要 特性 。 具 体 如 图 14.4 所 示 。 

对 一 类 采用 高 斯 噪声 和 均 方 误差 作为 重 构 误 差 的 特定 去 噪 自 编码 器 (具有 sig- 
moid 隐藏 单元 和 线性 重 构 单元 ) 的 去 噪 训练 过 程 ,与 训练 一 类 特定 的 被 称 为 RBM 的 
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图 14.4: 去 噪 自 编 码 器 被 训练 为 将 损坏 的 数据 点 之 映射 回 原始 数据 点 z。 我 们 将 训练 样本 z 表示 
为 位 于 低 维 流 形 〈 粗 黑 线 ) 附近 的 红 又 。 我 们 用 灰色 圆圈 表示 等 概率 的 损坏 过 程 C( 环 | ]。 灰 色 箭 
头 演示 了 如 何 将 一 个 训练 样本 转换 为 经 过 此 损坏 过 程 的 样本 。 当 训练 去 噪 自 编码 器 最 小 化 平方 误 
差 |9(j 鸭 ) -zl 的 平均 值 时 ， 重 构 9(7 鸭 ) 估计 下 ,zw~paataGecGxlxe)[ 区 | 习 。9( 帮 多 ) 对 可 能 产生 
区 的 原始 点 z 的 质心 进行 估计 ， 所 以 向 量 9(j/ 人 区) 一 将 近似 指向 流 形 上 最 近 的 点 。 因 此 自 编码 器 可 
以 学 习 由 绿色 箭头 表示 的 向 量 场 g(j(m)) - z。 该 向 量 场 将 得 分 Vslog paata(z) 佑 计 为 一 个 乘 性 因 
子 ， 即 重 构 误差 均 方 根 的 平均 。 



























































无 向 概率 模型 是 等 价 的 (Vincent, 2011)。 这 类 模型 将 在 第 20.5.1 节 给 出 更 详细 的 介 
绍 ; 对 于 现在 的 讨论 , 我 们 只 需 知 道 这 个 模型 能 显 式 的 给 出 pmoaet(z; 9)。 当 RBM 使 
用 去 噪 得 分 匹配 ( denoising score matching ) 算法 (Kingma and LeCun, 2010a) 训 
练 时 ， 它 的 学 习 算法 与 训练 对 应 的 去 噪 自 编 码 需 是 等 价 的。 在 一 个 确定 的 噪声 水 平 
下 ， 正 则 化 的 得 分 匹配 不 是 一 致 估计 量 ; 相反 它 会 恢复 分 布 的 一 个 模糊 版 本 。 然 而 ， 
当 噪 声 水 平 趋向 于 0 且 训 练 样本 数 趋向 于 无 穷 时 ， 一 致 性 就 会 恢复 。 我 们 将 会 在 
第 18.5 节 更 详细 地 讨论 去 噪 得 分 匹配 。 

自 编码 器 和 RBM 还 存在 其 他 联系 。 在 RBM 上 应 用 得 分 匹配 后 ,其 代价 函数 将 
等 价 于 重 构 误 差 结合 类 似 CAE 惩罚 的 正则 项 (Swersky et woL，2011)。Bengio and 
Delalleau (2009) 指出 自 编 码 需 的 梯度 是 对 RBM 对 比 散 度 训练 的 近似 。 

对 于 连续 的 z， 高 斯 损坏 和 重 构 分 布 的 去 品 准 则 得 到 的 得 分 估计 适用 于 一 般 编 
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码 器 和 解码 器 的 参数 化 (Alain and Bengio, 2013)。 这 意味 着 一 个 使 用 平方 误差 准则 





19( 人 (7 人) 一 字 (14.16) 
和 噪声 方差 为 c?” 的 损坏 
C( 人 (= 世 |2)=N(zN= 用 并 = 站 (14.17) 


的 通用 编码 器 -解码 顺 架 构 可 以 用 来 训练 估计 得 分 。 岁 14.5 展示 





中 的 工作 原理 。 
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图 14.5: 由 去 噪 自 编码 吉 围 绕 1 维 弯曲 流 形 学 习 的 向 量 场 ， 其 中 数据 集中 在 2 维 空间 中 。 每 个 箭 
头 与 重 构 向 量 减 去 自 编 码 需 的 输入 向 量 后 的 向 量 成 比例 ， 并 且 根 据 隐 式 估计 的 概率 分 布 指向 较 高 
的 概率 。 向 量 场 在 估计 的 密度 函数 的 最 大 值 处 〈 在 数据 流 形 上 ) 和 密度 函数 的 最 小 值 处 都 为 零 。 例 
如 ,螺旋 臂 形成 局 部 最 大 值 彼 此 连接 的 1 维 流 形 。 局 部 最 小 值 出 现在 两 个 臂 间隙 的 中 间 附 近 。 当 重 
构 误 差 的 范 数 (由 箭头 的 长 度 示 出 ) 很 大 时 ， 在 箭头 的 方向 上 移动 可 以 显著 增加 概率 ， 并 且 在 低 
概率 的 地 方 大 多 也 是 如 此 。 自 编码 器 将 这 些 低 概率 点 映射 到 较 高 的 概率 重 构 。 在 概率 最 大 的 情况 
下 ， 重 构 变 得 更 准确 ， 因 此 箭头 会 收缩 。 经 Alain and Bengio (2013) 许可 转载 此 图 。 










































































一 般 情 况 下 ， 不 能 保证 重 构 函 数 9g(j(zm)) 减 去 输入 z 后 对 应 于 某 个 函数 的 梯 
度 ， 更 不 用 说 得 分 。 这 是 早期 工作 (Vincent, 2011) 专用 于 特定 参数 化 的 原因 (其 中 
9g(j(m)) -2 能 通过 另 一 个 函数 的 导数 获得 )。Kamyshanska and Memisevic (2015) 
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通过 标识 一 类 特殊 的 浅 层 自 编 码 需 家 族 ， 使 9(/ 四 ) -并 对 应 于 这 个 家 族 所 有 成 员 的 
一 个 得 分 ， 以 此 推广 Vincent (2011) 的 结 

目前 为 止 我 们 所 讨论 的 仅 限 于 去 噪 自 编码 器 如 何 学 习 表 示 一 个 概率 分 布 。 更 一 
般 的 ， 我 们 可 能 希望 使 用 自 编码 器 作为 生成 模型 ， 并 从 其 分 布 中 进行 采样 。 这 将 在 
第 20.11 节 中 讨论 。 





14.5.2 ”历史 展望 


采用 MLP 去 噪 的 想法 可 以 追溯 到 LeCun (1987) 和 Gallinari et a!. (1987) 的 
工作 。Behnke (2001) 也 曾 使 用 循环 网 络 对 图 像 去 品 。 在 某 种 意义 上 ， 去 噪 自 编 码 
器 仅仅 是 被 训练 去 噪 的 MLP。 然 而 ,“ 去 噪 自 编码 器 ”的 命名 指 的 不 仅仅 是 学 习 去 
品 ， 而 且 可 以 学 到 一 个 好 的 内 部 表示 〈 作 为 学 习 去 品 的 副 效用 )。 这 个 想法 提出 较 
蜀 (Vincent et al., 2008b, 2010)。 学 习 到 的 表示 可 以 被 用 来 预 训 练 更 深 的 无 监督 网 络 
或 监督 网 络 。 与 稀 琉 自 编码 器 、 稀 玻 编 码 、 收 缩 自 编码 器 等 正则 化 的 自 编码 需 类 似 ， 
DAE 的 动机 是 允许 学 习 容 量 很 高 的 编码 器 ， 同 时 防止 在 编码 器 和 解码 器 学 习 一 个 无 
用 的 恒 等 郴 数 。 

在 引入 现代 DAE 之 前 ，Inayoshi and Kurita (2005) 探索 了 其 中 一 些 相 同 的 方 
法 和 目标 。 他 们 除了 在 监督 目标 的 情况 下 最 小 化 重 构 误 差 之 外 , 还 在 监督 MLP 的 隐 
藏 层 注入 噪声 ， 通 过 引信 重 构 误 差 和 注 人 噪声 提升 泛 化 能 力 。 然 而 ， 他 们 的 方法 基 
于 线性 编码 器 ， 因 此 无 法 学 习 到 现代 DAE 能 学 习 的 强大 函数 族 。 














14.6 “使 用 自 编码 器 学 习 流 形 


如 第 5.11.3 节 描 述 ， 自 编码 器 跟 其 他 很 多 机 天 学 习 算法 一 样 , 也 利用 了 数据 集中 
在 一 个 低 维 流 形 或 者 一 小 组 这 样 的 流 形 的 思想 。 其 中 一 些 机 器 学 习 算 法 仅 能 学 习 到 
在 流 形 上 表现 良好 但 给 定 不 在 流 形 上 的 输入 会 导致 异 带 的 函数 。 自 编码 器 进一步 借 
此 想法 ， 忆 在 学 习 流 形 的 结构 。 

要 了 解 自 编码 器 如 何 做 到 这 一 点 ， 我 们 必须 介绍 流 形 的 一 些 重要 特性 。 

流 形 的 一 个 重要 特征 是 切 平面 (tangent plane ) 的 集合 。d 维 流 形 上 的 一 点 z， 
切 平面 由 能 张 成 流 形 上 人 允许 变动 的 局 部 方向 的 qd 维基 辐 量 给 出 。 如 图 14.6 所 示 ， 这 
些 局 部 方向 决定 了 我 们 能 如 何 微小 地 变动 z 而 保持 于 流 形 上 。 
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图 14.6: 











正切 超 平面 概念 的 图 示 。 我 们 在 784 维 空间 中 创建 了 1 维 流 形 。 我 们 使 用 一 张 784 像素 












































的 MNIST 图 像 , 并 通过 垂直 平移 来 转换 它 。 垂 直 平移 的 量 定义 沿 着 1 维 流 形 的 坐标 ,轨迹 为 通过 
图 像 空间 的 弯曲 路 径 。 该 图 显示 了 沿 着 该 流 形 的 几 个 点 。 为 了 可 视 化 ,我 们 使 用 PCA 将 流 形 投影 
到 2 维 空间 中 。?m 维 流 形 在 每 个 点 处 都 具有 7m 维 切 平面 。 该 切 平面 恰好 在 该 点 接触 流 形 ， 并 且 在 















































该 点 处 平行 于 流 形 表面 。 它 定义 了 为 保持 在 流 形 上 可 以 移动 的 方向 空间 。 该 1 维 流 形 具有 单个 切 


线 。 我 从 








] 在 图 中 示 出 了 一 个 点 处 的 示例 切线 ， 其 中 图 像 表 示 该 切线 方向 在 图 像 空间 中 是 怎样 的 。 灰 

















色 像 素 表 示 沿 着 切线 移动 时 不 改变 的 像素 ， 白 色 像 素 表 示 变 亮 的 像素 ， 黑 色 像 素 表 示 变 暗 的 像素 。 


所 





有 自 编码 顺 的 训练 过 程 涉及 两 种 推动 力 的 折 惠 : 





1. 学 习 训 练 样本 z 的 表示 天 使 得 z 能 通过 解码 融 近 似 地 从 天 中 恢复 。z 是 从 训 
练 数据 挑 出 的 这 一 事实 很 关键 ， 因 为 这 意味 着 自 编码 融 不 需要 成 功 重 构 不 属于 
数据 生成 分 布下 的 输入 。 


2. 满足 约束 或 正则 惩罚 。 这 可 以 是 限制 自 编码 顺 容 量 的 架构 约束 ， 也 可 以 是 加 入 
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到 重 构 代 价 的 一 个 正则 项 。 这 些 技 术 一 般 倾 问 那 些 对 输入 较 不 敏感 的 解 。 


显然 ， 单 一 的 推动 力 是 无 用 的 一 一 从 它 本 身 将 输入 复制 到 输出 是 无 用 的 ， 同 样 
忽略 输入 也 是 没 用 的 。 相 反 ， 两 种 推动 力 结合 是 有 用 的 ， 因 为 它们 驱使 隐藏 的 表示 
能 捕获 有 关 数 据 分 布 结构 的 信息 。 重 要 的 原则 是 ， 自 编码 器 必须 有 能 力 表 示 重 构 训 
练 实例 所 需 的 变化 。 如 果 该 数据 生成 分 布 集中 靠近 一 个 低 维 流 形 ， 自 编码 器 能 隐 式 
产生 捕 提 这 个 流 形 局 部 坐标 系 的 表示 : 仅 在 周围 关于 流 形 的 相 切 变 化 需要 对 应 于 
尺 = /zz) 中 的 变化 。 因 此 ， 编 码 器 学 习 从 输入 空间 z 到 表示 空间 的 映射 ， 映 射 仅 对 
沿 着 流 形 方向 的 变化 敏感 ， 并 且 对 流 形 正 交 方 向 的 变化 不 敏感 。 

图 14.7 中 一 维 的 例子 说 明 ， 我 们 可 以 通过 构建 对 数据 点 周围 的 输入 扰动 不 敏感 
的 重 构 冰 数 ， 使 得 自 编 码 融 恢复 流 形 结构 。 





一 ”Identity 
一 Optimal reconstruction 


























图 14.7: 如 果 自 编码 器 学 习 到 对 数据 点 附近 的 小 扰动 不 变 的 重 构 函 数 ， 它 就 能 捕获 数据 的 流 形 结 
构 。 这 里 ， 流 形 结构 是 0 维 流 形 的 集合 。 虚 线 对 角 线 表示 重 构 的 恒 等 贾 数目 标 。 最 佳 重 构 函 数 会 
在 存在 数据 点 的 任意 处 穿 过 恒 等 函 数 。 图 底部 的 水 平 箭头 表示 在 输入 空间 中 基于 箭头 的 r(z) - z 
重建 方向 向 量 ， 总 是 指向 最 近 的 “ 流 形 ”( 1 维 情况 下 的 单个 数据 点 )。 在 数据 点 周围 ， 去 噪 自 编 
码 器 明确 地 沦 试 将 重 构 函数 r(z) 的 导数 限制 为 很 小 。 收 缩 自 编码 器 的 编码 器 执行 相同 操作 。 虽 然 
在 数据 点 周围 ，r(z) 的 导数 被 要 求 很 小 ,但 在 数据 点 之 间 它 可 能 会 很 大 。 数 据点 之 间 的 空间 对 应 
于 流 形 之 间 的 区 域 ， 为 将 损坏 点 映射 回流 形 ， 重 构 函 数 必须 具有 大 的 导数 。 

























































































为 了 理解 自 编 码 需 可 用 于 流 形 学 习 的 原因 ， 我 们 可 以 将 自 编码 句 和 其 他 方法 进 
行 对 比 。 学习 表征 流 形 最 常见 的 是 流 形 上 (或 附近 ) 数据 点 的 表示 (representation )。 
对 于 特定 的 实例 , 这 样 的 表示 也 被 称 为 骨 入 。 它 通 带 由 一 个 低 维 向 量 给 出 ， 具有 比 这 
个 流 形 的 “外 围 ” 空 间 更 少 的 维 数 。 有 些 算法 〈 下 面 讨论 的 非 参 数 流 形 学 习 算 法 ) 直 
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接 学 习 每 个 训练 样 例 的 误 人 ， 而 其 他 算法 学 习 更 一 般 的 映射 《有 时 被 称 为 编码 器 或 
表示 函数 )， 将 周围 空间 (输入 空间 ) 的 任意 点 映射 到 它 的 能 入 。 

流 形 学 习 大 多 专注 于 试图 捕捉 到 这 些 流 形 的 无 监督 学 习 过 程 。 最 初始 的 学 习 大 
线性 流 形 的 机 需 学 习 研 究 专注 基于 最 近邻 图 (nearest neighbor graph ) 的 非 参 数 
(non-parametric ) 方法 。 该 图 中 每 个 训练 样 例 对 应 一 个 节点 , 它 的 边 连 接近 邻 点 对 -如 
图 14.8 所 示 ， 这 些 方法 (Scholkopf et a/.，1998b; Roweis and Saul, 2000; Tenenbaum 
et al.，2000; Brand，2003b; Belkin and Niyogi，2003a; Donoho and Grimes，2003; 
Weinberger and Saul, 2004b; Hinton and Roweis, 2003; van der Maaten and Hinton， 
2008) 将 每 个 节点 与 张 成 实例 和 近邻 之 间 的 差 向 量变 化 方向 的 切 平 面相 关联 。 

















图 14.8: 非 参 数 流 形 学 习 过 程 构建 的 最 近邻 图 ， 其 中 节点 表示 训练 样本 ， 有 向 边 指示 最 近邻 关系 。 
因此 ， 各 种 过 程 可 以 获得 与 图 的 邻 域 相 关联 的 切 平 面 以 及 将 每 个 训练 样本 与 实 值 向 量 位 置 或 典 入 
(Cembedding ) 相关 联 的 坐标 系 。 我 们 可 以 通过 搬 值 将 这 种 表示 概括 为 新 的 样本 。 只 要 样本 的 数量 
大 到 足以 覆盖 流 形 的 弯曲 和 扭转 ， 这 些 方法 工作 良好 。 图 片 来 自 QMUL 多 角度 人 脸 数据 集 (Gong 
et al.，2000)。 
















































































全 局 坐标 系 则 可 以 通过 优化 或 求解 线性 系统 获得 。 图 14.9 展示 了 如 何 通 过 大 量 
局 部 线性 的 类 高 斯 样 平 铺 〈 或 “清秀 饼 "， 因 为 高 斯 块 在 切 平面 方向 是 扁平 的 ) 得 到 


局 -人 
一 个 流 形 。 
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图 14.9: 如 果 每 个 位 置 处 的 切 平 面 ( 见 图 14.6 ) 是 已 知 的 ， 则 它们 可 以 平 铺 后 形成 全 局 坐标 系 或 
密度 函数 。 每 个 局 部 块 可 以 被 认为 是 局 部 欧 几 里 德 坐标 系 或 者 是 局 部 平面 高 斯 或 “薄饼 ”， 在 与 薄 
饼 正 交 的 方向 上 具有 非常 小 的 方差 而 在 定义 坐标 系 的 方向 上 具有 非常 大 的 方差 。 这 些 高 斯 的 混合 
提供 了 估计 的 密度 函数 ， 如 流 形 中 的 Parzen 窗口 算法 (Vincent and Bengio, 2003) 或 其 非 局 部 的 
基于 神经 网 络 的 变 体 (Bengio et o1., 2006b) 。 



























































然而 ，Bengio and Monperrus (2005) 指出 了 这 些 局 部 非 参数 方法 应 用 于 流 形 学 
习 的 根本 困难 : 如 果 流 形 不 是 很 光滑 〈 它 们 有 许多 波峰 、 波 谷 和 曲折 )， 为 履 盖 其 
中 的 每 一 个 变化 ,我 们 可 能 需要 非常 多 的 训练 样本 ， 导 致 没有 能 力 泛 化 到 没 见 过 的 
变化 。 实 际 上 ， 这 些 方法 只 能 通过 内 插 ， 概 括 相 邻 实 例 之 间 流 形 的 形状 。 不 幸 的 是 ， 
AI 问题 中 涉及 的 流 形 可 能 具有 非常 复杂 的 结构 ， 难 以 仅 从 局 部 插值 捕获 特征 。 考 虑 
图 14.6 转换 所 得 的 流 形 样 例 。 如 果 我 们 只 观察 输入 向 量 内 的 一 个 坐标 z; ， 当 平移 图 
像 ， 我 们 可 以 观察 到 当 这 个 坐标 遇 到 波峰 或 波 谷 时 ， 图 像 的 亮度 也 会 经 历 一 个 波峰 
或 波 谷 。 换 名 话说， 底层 图 像 模 板 亮度 的 模式 复杂 性 决定 执行 简单 的 图 像 变换 所 产 
生 的 流 形 的 复杂 性 。 这 是 采用 分 布 式 表示 和 深度 学 习 捕 获 流 形 结构 的 动机 。 
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14.7 “收缩 自 编 码 器 


收缩 自 编 码 器 (Rifai et o!., 2011a,b) 在 编码 疡 = jz) 的 基础 上 添加 了 显 式 的 正 
则 项 ， 鼓 励 /的 导数 尽 可 能 小 : 


2 


2/ oz) 


OZ 


惩罚 项 O(jm) 为 平方 Frobenius 范 数 (元 素平 方 之 和 )， 作 用 于 与 编码 器 的 郴 数 相 
关 信 导数 的 Jacobian 矩阵 。 

去 噪 自 编码 器 和 收缩 自 编 码 器 之 间 存 在 一 定 联 系 : Alain and Bengio (2013) 指出 
在 小 高 斯 噪声 的 限制 下 ， 当 重 构 本 数 将 zz 映射 到 ”= 9(jw) 时 ,去 噪 重 构 误 差 与 收 
缩 惩 罚 项 是 等 价 的 。 换 句 话 说， 去 噪 自 编码 吉 能 抵抗 小 且 有 限 的 输入 扰动 ， 而 收缩 
自 编码 器 使 特征 提取 函数 能 抵抗 极 小 的 输入 扰动 。 

分 类 任务 中 ， 基 于 Jacobian 的 收缩 惩罚 预 训练 特征 函数 /zj)， 将 收缩 惩罚 应 
用 在 /F(z) 而 不 是 g(jm) 可 以 产生 最 好 的 分 类 精度 。 如 第 14.5.1 节 所 讨论 ， 应 用 于 
Foz) 的 收缩 惩罚 与 得 分 匹配 也 有 紧密 的 联系 。 

收缩 (contractive ) 源 于 CAE 弯曲 空间 的 方式 。 具 体 来 说 ， 由 于 CAE 训练 为 
抵抗 输入 扰动 ， 鼓 励 将 输入 点 邻 域 映射 到 输出 点 处 更 小 的 邻 域 。 我 们 能 认为 这 是 将 
输入 的 邻 域 收缩 到 更 小 的 输出 邻 域 。 

说 得 更 清楚 一 点 ，CAE 只 在 局 部 收缩 个 训练 样本 z 的 所 有 扰动 都 映射 到 
jz) 的 附近 。 全 局 来 看 ， 两 个 不 同 的 点 z 和 zw 会 分 别 被 映射 到 远离 原点 的 两 个 点 
jz) 和 jz)。 太 扩展 到 数据 流 形 的 中 间或 远 处 是 合理 的 〈 见 图 14.7 中 小 例子 的 情 
况 ). 当 9(m 惩罚 应 用 于 sigmoid 单元 时 , 收缩 Jacobian 的 简单 方式 是 令 sigmoid 趋 
向 饱和 的 0 或 1。 这 鼓励 CAE 使 用 sigmoid 的 极 值 编 码 输入 点 ,或 许可 以 解释 为 二 
进 制 编码 。 它 也 保证 了 CAE 可 以 穿 过 大 部 分 sigmoid 隐藏 单元 能 张 成 的 超 立 方 体 ， 
进而 扩散 其 编码 值 。 

我 们 可 以 认为 点 z 处 的 Jacobian 矩阵 了 能 将 非 线性 编码 需 近 似 为 线性 算 子 。 这 
允许 我 们 更 形式 地 使 用 “收缩 ”这 个 词 。 在 线性 理论 中 ， 当 .7 的 范 数 对 于 所 有 单位 
2 都 小 于 等 于 1 时 ，J7 被 称 为 收缩 的 。 换 句 话 说， 如果 了 收缩 了 单位 球 ， 他 就 是 收 
缩 的 。 我 们 可 以 认为 CAE 为 鼓励 每 个 局 部 线性 算 子 具有 收缩 性 ， 而 在 每 个 训练 数据 
点 处 将 Frobenius 范 数 作为 Foz) 的 局 部 线性 近似 的 惩罚 。 

如 第 14.6 节 中 描述 , 正则 自 编 码 器 基于 两 种 相反 的 推动 力学 习 流 形 。 在 CAE 的 


(和 = 和 (14.18) 
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情况 下 ， 这 两 种 推动 力 是 重 构 误 差 和 收缩 惩罚 (四 。 单 独 的 重 构 误 差 鼓 励 CAE 学 
习 一 个 恒 等 函 数 。 单 独 的 收缩 惩罚 将 鼓励 CAE 学 习 关 于 z 是 恒定 的 特征 。 这 两 种 
推动 力 的 折衷 产生 导数 区 四 大 多 是 微小 的 自 编码 器 。 只 有 少数 隐藏 单元 ， 对 应 于 一 
小 部 分 输入 数据 的 方向 ， 可 能 有 显著 的 导数 。 

CAE 的 目标 是 学 习 数 据 的 流 形 结构 。 使 JJz 很 大 的 方向 z， 会 快速 改变 刀 ， 因 
此 很 可 能 是 近似 流 形 切 平面 的 方向 。Rifai et o. (2011a,b) 的 实验 显示 训练 CAE 会 
导致 J 中 大 部 分 奇异 值 ( 幅 值 ) 比 1 小 ， 因 此 是 收缩 的 。 然 而 ， 有 些 奇异 值 仍然 比 
1 大 ， 因 为 重 构 误差 的 惩罚 鼓励 CAE 对 最 大 局 部 变化 的 方向 进行 编码 。 对 应 于 最 大 
奇异 值 的 方向 被 解释 为 收缩 自 编码 器 学 到 的 切 方 向 。 理 想 情 况 下 ， 这 些 切 方向 应 对 
应 于 数据 的 真实 变化 。 比 如 ,一 个 应 用 于 图 像 的 CAE 应 该 能 学 到 显示 图 像 改 变 的 切 
向 量 ， 如 图 14.6 图 中 物体 渐渐 改变 状态 。 如 图 14.10 所 示 ， 实 验 获得 的 奇异 向 量 的 可 
视 化 似乎 真 的 对 应 于 输入 图 象 有 意义 的 变换 。 
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14.10: 通过 局 部 PCA 和 收缩 自 编码 器 估计 的 流 形 切 向 量 的 图 示 。 流 形 的 位 置 由 来 自 CIFAR-10 
数据 集中 狗 的 输入 图 像 定 义 。 切 向 量 通 过 输入 到 代码 映射 的 Jacobian 和 阵 名 的 前 导 奇 异 向 量 估 
计 。 虽 然 局 部 PCA 和 CAE 都 可 以 捕获 局 部 切 方 向 ， 但 CAE 能 够 从 有 限 训练 数 据 形成 更 准确 的 
估计 ， 因 为 它 利用 了 不 同位 置 的 参数 共享 ( 共享 激活 的 隐藏 单元 子 集 )。CAE 切 方向 通常 对 应 于 物 
体 的 移动 或 改变 部 分 ( 例如 头 或 腿 )。 经 Rifai et al. (2011c) 许可 转载 此 图 。 
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收缩 自 编 码 天 正则 化 准则 的 一 个 实际 问题 是 ， 尽 管 它 在 单一 隐藏 层 的 自 编码 
顺 情 况 下 是 容易 计算 的 ， 但 在 更 次 的 自 编码 器 情况 下 会 变 的 难以 计算 。 根 据 Rifai 
et ol. (2011a) 的 策略 ， 分 别 训练 一 系列 单 层 的 自 编码 器 ， 并 且 每 个 被 训练 为 重 构 前 
一 个 自 编 码 需 的 隐藏 层 。 这 些 自 编 码 融 的 组 合 就 组 成 了 一 个 深度 自 编码 器 。 因 为 每 
个 层 分 别 训练 成 局 部 收缩 ， 深 度 自 编码 器 自然 也 是 收缩 的 。 这 个 结果 与 联合 训练 深 
度 模 型 完整 架构 ( 带 有 关于 Jacobian 的 惩罚 项 ) 获得 的 结果 是 不 同 的， 但 它 抓 住 了 
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许多 理想 的 定性 特征 。 

另 一 个 实际 问题 是 ， 如 果 我 们 不 对 解码 器 强加 一 些 约束 ， 收 缩 惩 罚 可 能 导致 无 
用 的 结果 。 例 如 ， 编 码 器 将 输入 乘 一 个 小 常数 es， 解码 器 将 编码 除 以 一 个 小 常数 e。 
随 着 e 趋向 于 0， 编 码 器 会 使 收缩 惩罚 项 (加 趋向 于 0 而 学 不 到 任何 关于 分 布 的 信 
息 。 同 时 ， 解 码 器 保持 完美 的 重 构 。Rifai et al1. (2011a) 通过 绑 定 上 和 9 的 权重 来 
防止 这 种 情况 。 和 9 都 是 由 线性 仿 射 变换 后 进行 逐 元 素 非 线性 变换 的 标准 神经 网 
络 层 组 成 ， 因 此 将 9 的 权重 矩阵 设 成 上 权 重 和 矩阵 的 转 置 是 很 直观 的 。 




















14.8 ”预测 稀 玻 分 解 


预测 稀疏 分 解 ( predictive sparse decomposition, PSD ) 是 稀 玻 编码 和 参数 化 自 
编码 器 (Kavukcuoglu et ,2008) 的 混合 模型 。 参 数 化 编码 器 被 训练 为 能 预测 迭代 
推断 的 输出 。PSD 被 应 用 于 图 片 和 视频 中 对 象 识 别 的 无 监督 特征 学 习 (Kavukcuoglu 
et al.， 2009, 2010; Jarrett et al.，2009b; Farabet et a1.，2011) ， 在 音频 中 也 有 所 应 用 
(Henaft et o/., 2011)。 这 个 模型 由 一 个 编码 器 Az) 和 一 个 解码 器 g(P 组 成 ,并且 都 
是 参数 化 的 。 在 训练 过 程 中 , 疡 由 优化 算法 控制 。 优 化 过 程 是 最 小 化 








2 一 对 村 十 入 到 :十 了 | 大 一 不 全。 (14.19) 


就 像 稀 玻 编码 ， 训 练 算法 交 蔡 地 相对 产 和 模型 的 参数 最 小 化 上 述 目标 。 相 对 疡 最 小 
化 较 快 ， 因 为 faz) 提供 疡 的 良好 初始 值 以 及 损失 函数 将 疡 约 东 在 jz) 附近 。 简 单 
的 梯度 下 降 算法 只 需 10 步 左右 就 能 获得 理想 的 ]。 

PSD 所 使 用 的 训练 程序 不 是 先 训练 稀 玻 编码 模型 ， 然 后 训练 /FLz) 来 预测 稀 玻 
编码 的 特征 。PSD 训练 过 程 正则 化 解码 器 ， 使 用 /z) 可 以 推断 出 恨 好 编码 的 参数 。 

预测 稀 玻 分 解 是 学 习 近 似 推断 〈1learned approximate inference ) 的 一 个 例子 。 
在 第 19.5 节 中 ， 这 个 话题 将 会 进一步 展开 。 第 十 九 章 中 展示 的 工具 能 让 我 们 了 解 到 ， 
PSD 能 够 被 解释 为 通过 最 大 化 模型 的 对 数 似 然 下界 训 练 有 向 稀 玻 编码 的 概率 模型 。 

在 PSD 的 实际 应 用 中 ， 和 迭代 优化 仅 在 训练 过 程 中 使 用 。 模 型 被 部 署 后 ， 参 数 编 
码 器 上 用 于 计算 已 经 习 得 的 特征 。 相 比 通过 梯度 下 降 推 基 疡 ， 计 算 太 是 很 容易 的 。 
因为 上 是 一 个 可 微 带 参 冰 数 ，PSD 模型 可 堆 大 ， 并 用 于 初始 化 其 他 训练 准则 的 深度 
网 络 。 
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14.9 自 编 码 器 的 应 用 


自 编码 需 已 成 功 应 用 于 降 维 和 信息 检索 任务 。 降 维 是 表示 学 习 和 深度 学 习 的 第 
一 批 应 用 之 一 。 它 是 研究 自 编码 需 早 期 驱动 力 之 一 。 例如 , Hinton and Salakhutdinov 
(2006) 训练 了 一 个 栈 式 RBM,， 然 后 利用 它们 的 权重 初始 化 一 个 隐藏 层 逐 渐 减 小 的 深 
度 自 编 码 器 ， 终 结 于 30 个 单元 的 瓶颈 。 生 成 的 编码 比 30 维 的 PCA 产生 更 少 的 重 
构 误 差 ， 所 学 到 的 表示 更 容易 定性 解释 ， 并 能 联系 基础 类 别 ， 这 些 类 别 表 现 为 分 离 
良好 的 集群 。 

低 维 表 示 可 以 提高 许多 任务 的 性 能 ， 例 如 分 类 。 小 空间 的 模型 消耗 更 少 的 内 存 
和 运行 时 间 。 据 Salakhutdinov and Hinton (2007b) 和 Torralba et al. (2008) 观察 ， 
许多 降 维 的 形式 会 将 语义 上 相关 的 样本 置 于 彼此 邻近 的 位 置 。 映 射 到 低 维 空间 所 提 
供 的 线索 有 助 于 泛 化 。 

相 比 普通 任务 ， 信 息 检 索 (information retrieval ) 从 降 维 中 获 益 更 多 ， 此 任务 
需要 找到 数据 库 中 类 似 查 询 的 条 目 。 此 任务 不 仅 和 其 他 任务 一 样 从 降 维 中 获得 一 般 
益处 ,还 使 某 些 低 维 空间 中 的 搜索 变 得 极为 高 效 。 特 别 的 ,如 果 我 们 训练 降 维 算 法 生 
成 一 个 低 维 且 二 值 的 编码 ， 那 么 我 们 就 可 以 将 所 有 数据 库 条 目 在 哈 希 表 映 射 为 二 值 
编码 向 量 。 这 个 哈 希 表 人 允许 我 们 返回 具有 相同 二 值 编码 的 数据 库 条 目 作 为 查询 结 
进行 信息 检索 。 我 们 也 可 以 非常 高 效 地 搜索 稍 有 不 同 条 目 ， 只 需 反 转 查 询 编码 的 各 
个 位 。 这 种 通过 降 维 和 二 值 化 的 信息 检索 方法 被 称 为 语义 哈 希 (semantic hashing ) 
(Salakhutdinov and Hinton, 2007b, 2009b) , 已 经 被 用 于 文本 输入 (Salakhutdinov and 
Hinton, 2007b, 2009b) 和 图 像 (Torralba et al., 2008; Weiss et al., 2008; Krizhevsky 
and Hinton, 2011)。 


通常 在 最 终 层 上 使 用 sigmoid 编码 国 数 产 生 语 义 哈 希 的 二 值 编 码 。sigmoid 单元 
必须 被 训练 为 到 达 饱 和 ， 对 所 有 输入 值 都 接近 0 或 接近 1。 能 做 到 这 一 点 的 门 就 
是 训练 时 在 sigmoid 非 线性 单元 前 简单 地 注入 加 性 噪声 。 噪 声 的 大 小 应 该 随时 间 增 
加 。 要 对 抗 这 种 噪音 并 且 保 存 尽 可 能 多 的 信息 ， 网 络 必须 加 大 输入 到 sigmoid 函数 
的 幅度 ， 直 到 饱和 。 

学 习 哈 硕 函 数 的 思想 已 在 其 他 多 个 方向 进一步 探讨 ， 包 括 改 变 损 失 训 练 表 
示 的 想法 ， 其 中 所 需 优化 的 损失 与 哈 希 表 中 查找 附近 样本 的 任务 有 更 直接 的 联系 
(Norouzi and Fleet,， 2011)。 
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在 本 章 中 ， 首 先 我 们 会 讨论 学 习 表 示 是 什么 意思 ， 以 及 表示 的 概念 如 何 有 助 于 
深度 框架 的 设计 。 我 们 探讨 学 习 算 法 如 何在 不 同 任务 中 共享 统计 信息 ， 包 括 使 用 无 
监督 任务 中 的 信息 来 完成 监督 任务 。 共 享 表示 有 助 于 处 理 多 模式 或 多 领域 ， 或 是 将 
已 学 到 的 知识 迁移 到 样本 很 少 或 没有 、 但 任务 表示 依然 存在 的 任务 上 。 最 后 ， 我 们 
回 过 头 探讨 表示 学 习 成 功 的 原因 ， 从 分 布 式 表示 (Hinton et oa/.,，1986) 和 深度 表示 的 
理论 优势 ， 最 后 会 讲 到 数据 生成 过 程 潜在 假设 的 更 一 般 概 念 ， 特 别 是 观测 数据 的 基 
本 成 因 。 

很 多 信息 处 理 任务 可 能 非常 容易 ， 也 可 能 非常 困难 ， 这 取决 于 信息 是 如 何 表示 
的 。 这 是 一 个 广泛 适用 于 日 常生 活 、 计 算 机 科学 及 机 器 学 习 的 基本 原则 。 例 如 ， 对 于 
人 而 言 ， 可 以 直接 使 用 长 除法 计算 210 除 以 6。 但 如 果 使 用 罗马 数字 表示 ， 这 个 问 
题 就 没 那么 直接 了 。 大 部 分 现代 人 在 使 用 罗马 数字 计算 CCX 除 以 VI 时 ， 都 会 将 其 
转化 成 阿拉 伯 数 字 ， 从 而 使 用 位 值 系统 的 长 除法 。 更 具体 地 ， 我 们 可 以 使 用 合适 或 
不 合适 的 表示 来 量化 不 同 操作 的 渐 近 运行 时 间 。 例 如 ， 插 入 一 个 数字 到 有 序 表 中 的 
正确 位 置 ， 如 果 该 数列 表示 为 链表 ， 那 么 所 需 时 间 是 O(m"); 如 果 该 列表 表示 为 红 黑 
树 ， 那 么 只 需要 OUog m) 的 时 间 。 

在 机 器 学 习 中 ， 到 底 是 什么 因素 决定 了 一 种 表示 比 另 一 种 表示 更 好 呢 ? 一 般 而 
言 ， 一 个 好 的 表示 可 以 使 后 续 的 学 习 任务 更 容易 。 选 择 什 么 表示 通常 取决 于 后 续 的 
学 习 任务 。 

我 们 可 以 将 监督 学 习 训 练 的 前 馈 网 络 视 为 表示 学 习 的 一 种 形式 。 具 体 地 ， 网 络 
的 最 后 一 层 通 常 是 线性 分 类 器 ， 如 softmax 回归 分 类 器 。 网 络 的 其 余部 分 学 习 出 该 
分 类 器 的 表示 。 监 督学 习 训 练 模型 ， 一 般 会 使 得 模型 的 各 个 隐藏 层 (特别 是 接近 项 
层 的 隐藏 层 ) 的 表示 能 够 更 加 容易 地 完成 训练 任务 。 例 如 ， 输 入 特征 线性 不 可 分 的 
类 别 可 能 在 最 后 一 个 隐藏 层 变 成 线性 可 分 离 的。 原则 上 ， 最 后 一 层 可 以 是 另 一 种 模 
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型 ， 如 最 近邻 分 类 器 (Salakhutdinov and Hinton, 2007a)。 倒 数 第 二 层 的 特征 应 该 根 
据 最 后 一 层 的 类 型 学 习 不 同 的 性 质 。 

前 馈 网 络 的 监督 训练 并 没有 给 学 成 的 中 间 特 征明 确 强加 任何 条 件 。 其 他 的 表示 
学 习 算法 往往 会 以 某 种 特定 的 方式 明确 设计 表示 。 例 如 ， 我 们 想 要 学 习 一 种 使 得 密 
度 估计 更 容易 的 表示 。 具 有 更 多 独立 性 的 分 布 会 更 容易 建 模 ， 因 此 ， 我 们 可 以 设计 
敲 励 表 示 向 量 疡 中 元 素 之 间 相 互 独立 的 目标 函数 。 就 像 监 督 网 络 ， 无 监督 深度 学 习 
算法 有 一 个 主要 的 训练 目标 ， 但 也 额外 地 学 习 出 了 表示 。 不 论 该 表示 是 如 何 得 到 的 ， 
它 都 可 以 用 于 其 他 任务 。 或 者 ， 多 个 任务 (有些 是 监督 的 ， 有 些 是 无 监督 的 ) 可 以 通 
过 共享 的 内 部 表示 一 起 学 习 。 

大 多 数 表示 学 习 算 法 都 会 在 尽 可 能 多 地 保留 与 输入 相关 的 信息 和 追求 良好 的 性 
质 (如 独立 性 ) 之 间作 出 权衡 。 

表示 学 习 特 别 有 趣 ， 因 为 它 提供 了 进行 无 监督 学 习 和 半 监 督学 习 的 一 种 方法 。 
我 们 通常 会 有 巨 量 的 未 标注 训练 数据 和 相对 较 少 的 标注 训练 数据 。 在 非常 有 限 的 标 
注 数 据 集 上 监督 学 习 通常 会 导致 严重 的 过 拟 合 。 半 监督 学 习 通过 进一步 学 习 未 标 
注 数 据 ， 来 解决 过 拟 合 的 问题 。 具 体 地 ， 我 们 可 以 从 未 标注 数据 上 学 习 出 很 好 的 表 
示 ， 然 后 用 这 些 表示 来 解决 监督 学 习 问 题 。 

人 类 和 动物 能 够 从 非常 少 的 标注 样本 中 学 习 。 我 们 至 今 仍 不 知道 这 是 如 何 做 到 
的 。 有 许多 假说 解释 人 类 的 草 越 学 习 能 力 一 一 例如 ， 大 脑 可 能 使 用 了 大 量 的 分 类 器 
或 者 贝 叶 斯 推 肠 技术 的 集成 。 一 种 流行 的 假说 是 ， 大 脑 能 够 利用 无 监督 学 习 和 半 监 
督学 习 。 利 用 未 标注 数据 有 多 种 方式 。 在 本 章 中 ,我 们 主要 使 用 的 假说 是 未 标注 数 
据 可 以 学 习 出 良好 的 表示 。 












































15.1 贪心 逐 层 无 监督 预 训 练 


无 监督 学 习 在 次 度 神 经 网 络 的 复兴 上 起 到 了 关键 的 、 历 史 性 的 作用 ， 它 使 研究 
者 首次 可 以 训练 不 含 诸如 卷 积 或 者 循环 这 类 特殊 结构 的 深度 监督 网 络 。 我 们 将 这 一 
过 程 称 为 无 监督 预 训练 (unsupervised pretraining )， 或 者 更 精确 地 ， 贪 心 逐 层 无 监 
督 预 训练 (greedy layer-wise unsupervised pretraining )。 此 过 程 是 一 个 任务 (无 监 
督学 习 ， 尝 试 获 取 输 入 分 布 的 形状 ) 的 表示 如 何 有 助 于 另 一 个 任务 ( 具有 相同 输入 
域 的 监督 学 习 ) 的 典型 示例 。 

贪心 逐 层 无 监督 预 训练 依赖 于 单 层 表示 学 习 算 法 ， 例 如 RBM、 单 层 自 编 码 器 、 
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稀 玻 编码 模型 或 其 他 学 习 淤 在 表示 的 模型 。 每 一 层 使 用 无 监督 学 习 预 训练 ， 将 前 一 
层 的 输出 作为 输入 ， 输 出 数据 的 新 的 表示 。 这 个 新 的 表示 的 分 布 〈 或 者 是 和 其 他 变 
量 比如 要 预测 类 别 的 关系 ) 有 可 能 是 更 简单 的 。 如 算法 15.1 所 示 的 正式 表述 。 











算法 15.1 贪心 逐 层 无 监督 预 训练 的 协定 
给 定 如 下 : 无 监督 特征 学 习 算法 C，2 使 用 训练 集 样 本 并 返回 编码 需 或 特征 函数 太 
原始 输入 数据 是 和 ,每 行 一 个 样本 , 并 且 /0D(X) 是 第 一 阶段 编码 器 关于 筷 的 输出 。 
在 执行 精 调 的 情况 下 ， 我 们 使 用 学 习 者 记 ， 并 使 用 初始 冰 数 上/， 输 入 样本 飞 (以 及 
在 监督 精 调情 况 下 关联 的 目标 己 )， 并 返回 细 调 好 函数 。 阶 段 数 为 m。 
< 恒 等 函 数 
驯 一 驻 
for KK 三 1...,70 do 
j 由 = 2C( 避 ) 
二 Jo7 
天 二 (加 


end for 





证 jpze- 如 iT009 em 
全 测 

e72d 这 

Return 太 





基于 无 监督 标准 的 贪心 逐 层 训练 过 程 ， 早 已 被 用 来 规避 监督 问题 中 深度 神经 网 
络 难以 联合 训练 多 层 的 问题 。 这 种 方法 至 少 可 以 追溯 神经 认 知 机 (Fukushima, 1975)。 
深度 学 习 的 复兴 始 于 2006 年 ， 源 于 发 现 这 种 贪心 学 习 过 程 能 够 为 多 层 联合 训练 过 程 
找到 一 个 好 的 初始 值 , 甚至 可 以 成 功 训 练 全 连接 的 结构 (Hinton et al., 2006b; Hinton 
and Salakhutdinov, 2006; Hinton, 2006; Bengio et al., 2007d; Ranzato et al., 2007a)。 
在 此 发 现 之 前 ， 只 有 深度 卷 积 网 络 或 深度 循环 网 络 这 类 特殊 结构 的 深度 网 络 被 认为 
是 有 可 能 训练 的 。 现 在 我 们 知道 训练 具有 全 连接 的 深度 结构 时 ， 不 再 需要 使 用 贪心 
逐 层 无 监督 预 训练 ， 但 无 监督 预 训练 是 第 一 个 成 功 的 方法 。 


贪心 逐 层 无 监督 预 训练 被 称 为 贪心 (greedy ) 的 ， 是 因为 它 是 一 个 贪心 算法 
(greedy algorithm )， 这 意味 着 它 独立 地 优化 解决 方案 的 每 一 个 部 分 ， 每 一 步 解 决 一 
个 部 分 ， 而 不 是 联合 优化 所 有 部 分 。 它 被 称 为 逐 层 的 (layer-wise )， 是 因为 这 些 独 立 
的 解决 方案 是 网 络 层 。 具 体 地 ， 贪 心 逐 层 无 监督 预 训练 每 次 处 理 一 层 网 络 ， 训 练 第 天 
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层 时 保持 前 面 的 网 络 层 不 变 。 特 别 地 ， 低 层 网 络 〈 最 先 训 练 的 ) 不 会 在 引入 高 层 网 
络 后 进行 调整 。 它 被 称 为 无 监督 ( unsupervised ) 的 ， 是 因为 每 一 层 用 无 监督 表示 学 
习 算 法 训练 。 然 而 ， 它 也 被 称 为 预 训练 (pretraining )， 是 因为 它 只 是 在 联合 训练 算 
法 精 调 (fine-tune ) 所 有 层 之 前 的 第 一 步 。 在 监督 学 习 任 务 中 ， 它 可 以 被 看 作 是 正 
则 化 项 〈 在 一 些 实验 中 ， 预 训练 不 能 降低 训练 误差 ， 但 能 降低 测试 误差 ) 和 参数 初 
台 化 的 一 种 形式 。 


通常 而 言 ,“ 预 训练 ”不 仅 单 指 预 训 练 阶段 ， 也 指 结合 预 训练 和 监督 学 习 的 两 阶 
段 学 习 过 程 。 监 督学 习 阶 段 可 能 会 使 用 预 训练 阶段 得 到 的 顶层 特征 训练 一 个 简单 分 
类 器 ， 或 者 可 能 会 对 预 训练 阶段 得 到 的 整个 网 络 进行 监督 精 调 。 不 管 采用 什么 类 型 
的 监督 学 习 算 法 和 模型 ， 在 大 多 数 情 况 下 ， 整 个 训练 过 程 几 乎 是 相同 的 。 虽 然 无 监 
督学 习 算 法 的 选择 将 明显 影响 到 细节 ， 但 是 大 多 数 无 监督 预 训练 应 用 都 遵循 这 一 基 
本 方法 。 

贪心 逐 层 无 监督 预 训练 也 能 用 作 其 他 无 监督 学 习 算 法 的 初始 化 ， 比 如 深度 自 编 
码 器 (Hinton and Salakhutdinov,，2006) 和 具有 很 多 洪 变 量 层 的 概率 模型 。 这 些 模 
型 包括 深度 信念 网 络 (Hinton et al., 2006b) 和 深度 玻 尔 效 曼 机 (Salakhutdinov and 
Hinton, 2009a)。 这 些 深度 生成 模型 会 在 第 二 十 章 中 讨论 。 

正如 第 8.7.4 节 所 探讨 的 ， 我 们 也 可 以 进行 贪心 逐 层 监督 预 训练 。 这 是 建立 在 
训练 浅 层 模型 比 深度 模型 更 容易 的 前 提 下 ， 而 该 前 提 似 乎 在 一 些 情况 下 已 被 证 
实 (Erhan et al., 2010)。 











15.1.1 何 时 以 及 为 何 无 监督 预 训练 有 效 ? 


在 很 多 分 类 任务 中 ， 贪 心 逐 层 无 监督 预 训练 能 够 在 测试 误差 上 获得 重大 提升 。 
这 一 观察 结果 始 于 2006 年 对 深度 神经 网 络 的 重新 关注 (Hinton et al., 2006b; Bengio 
et dl., 2007d; Ranzato et w., 2007a)。 然 而 ， 在 很 多 其 他 问题 上 ， 无 监督 预 训 练 不 能 
带 来 改善 ， 甚 至 还 会 带 来 明显 的 负面 影响 。Ma et ol. (2015) 研究 了 预 训练 对 机 需 学 
习 模 型 在 化 学 活性 预测 上 的 影响 。 结 果 发 现 ， 平 均 而 言 预 训练 是 有 轻微 负面 影响 的 ， 
但 在 有 些 问 题 上 会 有 显著 帮助 。 由 于 无 监督 预 训练 有 时 有 效 ， 但 经 常 也 会 带 来 负面 
效果 ， 因 此 很 有 必要 了 解 它 何 时 有 效 以 及 有 效 的 原因 ， 以 确定 它 是 否 适 合用 于 特定 
的 任务 。 

首先 , 要 注意 的 是 这 个 讨论 大 部 分 都 是 针对 贪心 无 监督 预 训 练 而 言 。 还 有 很 多 其 
他 完全 不 同 的 方法 使 用 半 监 督学 习 来 训练 神经 网 络 ， 比 如 第 7.13 节 介 绍 的 虚拟 对 抗 
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训练 。 我 们 还 可 以 在 训练 监督 模型 的 同时 训练 自 编 码 需 或 生成 模型 。 这 种 单 阶段 方 
法 的 例子 包括 判别 RBM (Larochelle and Bengio, 2008b) 和 梯形 网 络 (Rasmnus et a/.， 
2015)， 其 中 整体 目标 是 两 项 之 和 ( 一 个 使 用 标签 ， 另 一 个 仅仅 使 用 输入 )。 

无 监督 预 训 练 结 合 了 两 种 不 同 的 想法 。 第 一 ， 它 利用 了 深度 神经 网 络 对 初始 参 
数 的 选择 ， 可 以 对 模型 有 着 显著 的 正则 化 效果 (在 较 小 程度 上 ， 可 以 改进 优化 ) 的 
想法 。 第 二 ， 它 利用 了 更 一 般 的 想法 一 一 学 习 输 入 分 布 有 助 于 学 习 从 输入 到 输出 的 
映射 。 

这 两 个 想法 都 涉及 到 机 器 学 习 算 法 中 多 个 未 能 完全 理解 的 部 分 之 间 复 杂 的 相互 
作用 。 

第 一 个 想法 ， 即 深度 神经 网 络 初始 参数 的 选择 对 其 性 能 具有 很 强 的 正则 化 效果 ， 
很 少 有 关于 这 个 想法 的 理解 。 在 预 训 练 变 得 流行 时 ， 在 一 个 位 置 初始 化 模型 被 认为 
会 使 其 接近 某 一 个 局 部 极 小 点 ， 而 不 是 另 一 个 局 部 极 小 点 。 如 今 ， 局 部 极 小 值 不 再 被 
认为 是 神经 网 络 优化 中 的 严重 问题 。 现 在 我 们 知道 标准 的 神经 网 络 训练 过 程 通 带 不 
会 到 达 任 何 形式 的 临界 点 。 仍 然 可 能 的 是 ， 预 训练 会 初始 化 模型 到 一 个 可 能 不 会 到 
达 的 位 置 一 一 例如 ， 某 种 区 域 ， 其 中 代价 函数 从 一 个 样本 点 到 另 一 个 样本 点 变化 很 
大 ， 而 小 批量 只 能 提供 噪声 严重 的 梯度 估计 ， 或 是 某 种 区 域 中 的 Hessian 矩阵 条 件 
数 是 病态 的 , 梯度 下 降 必 须 使 用 非常 小 的 步 长 。 然 而 ,我 们 很 难 准 确 判 断 监督 学 习 期 
间 预 训练 参数 的 哪些 部 分 应 该 保留 。 这 是 现代 方法 通常 同时 使 用 无 监督 学 习 和 监督 
学 习 ， 而 不 是 依 序 使 用 两 个 学 习 阶 段 的 原因 之 一 。 除 了 这 些 复 杂 的 方法 可 以 让 监督 
学 习 阶 段 保持 无 监督 学 习 阶 段 提 取 的 信息 之 外 ， 还 有 一 种 简单 的 方法 ， 固 定 特征 提 
取 器 的 参数 ， 仅 仅 将 监督 学 习作 为 顶层 学 成 特征 的 分 类 器 。 

另 一 个 想法 有 更 好 的 理解 ， 即 学 习 算法 可 以 使 用 无 监督 阶段 学 习 的 信息 ， 在 监 
督学 习 的 阶段 表现 得 更 好 。 其 基本 想法 是 对 于 无 监督 任务 有 用 的 一 些 特征 对 于 监督 
学 习 任 务 也 可 能 是 有 用 的 。 例 如 ， 如 果 我 们 训练 汽车 和 摩托 车 图 像 的 生成 模型 ， 它 
需要 知道 轮子 的 概念 ， 以 及 一 张 图 中 应 该 有 多 少 个 轮子 。 如 果 我 们 幸运 的 话 ， 无 监 
督 阶 段 学 习 的 轮子 表示 会 适合 于 监督 学 习 。 然 而 我 们 还 未 能 从 数学 、 理 论 层 面 上 证 
明 ， 因 此 并 不 总 是 能 够 预测 哪 种 任务 能 以 这 种 形式 从 无 监督 学 习 中 受益 。 这 种 方法 
的 许多 方面 高 度 依 赖 于 具体 使 用 的 模型 。 例 如 ， 如 果 我 们 和 希望 在 预 训练 特征 的 顶层 
添加 线性 分 类 器 , 那么 (学 习 到 的 ) 特征 必须 使 潜在 的 类 别 是 线性 可 分 离 的 。 这 些 性 
质 通 销 会 在 无 监督 学 习 阶 段 自然 发 生 ， 但 也 并 非 总 是 如 此 。 这 是 另 一 个 监督 和 无 监 
督学 习 同 时 训练 更 可 取 的 原因 一 一 输出 层 施加 的 约束 很 自然 地 从 一 开始 就 包括 在 内 。 
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从 无 监督 预 训练 作为 学 习 一 个 表示 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 
初始 表示 较 差 的 情况 下 更 有 效 。 一 个 重要 的 例子 是 词 谍 入 。 使 用 one-hot 向 量 表 示 
的 词 并 不 具有 很 多 信息 ， 因 为 任意 两 个 不 同 的 one-hot 向 量 之 间 的 距离 (平方 产 距 
离 都 是 2 ) 都 是 相同 的 。 学 成 的 词 嵌 入 自然 会 用 它们 彼此 之 间 的 距离 来 编码 词 之 间 
的 相似 性 。 因 此 ,无 监督 预 训 练 在 处 理 单词 时 特别 有 用 。 然 而 在 处 理 图 像 时 是 不 太 
有 用 的 ， 可 能 是 因为 图 像 已 经 在 一 个 很 丰富 的 向 量 空间 中 ， 其 中 的 距离 只 能 提供 低 
质量 的 相似 性 度量 。 

从 无 监督 预 训练 作为 正则 化 项 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 标 
注 样本 数量 非常 小 时 很 有 帮助 。 因 为 无 监督 预 训练 添加 的 信息 来 源 于 未 标注 数据 ， 
所 以 当 未 标注 样本 的 数量 非常 大 时 ， 我 们 也 可 以 期 望 无 监督 预 训练 的 效果 最 好 。 
无 监督 预 训练 的 大 量 未 标注 样本 和 少量 标注 样本 构成 的 半 监 督学 习 的 优势 特别 明 
显 。 在 2011 年 ， 无 监督 预 训练 赢得 了 两 个 国际 迁移 学 习 比 赛 (Mesnil et al.，2011; 
Goodfellow et al., 2011)。 在 该 情景 中 ， 目 标 任务 中 标注 样本 的 数目 很 少 〈 每 类 几 个 
到 几 十 个 )。 这 些 效果 也 出 现在 被 Paine et o/. (2014) 严格 控制 的 实验 中 。 

还 可 能 涉及 到 一 些 其 他 的 因素 。 例 如 ， 当 我 们 要 学 习 的 函数 非常 复杂 时 ， 无 监 
督 预 训练 可 能 会 非常 有 用 。 无 监督 学 习 不 同 于 权重 衰减 这 样 的 正则 化 项 ， 它 不 偏向 
于 学 习 一 个 简单 的 函数 ， 而 是 学 习 对 无 监督 学 习 任 务 有 用 的 特征 函数 。 如 果真 实 的 
潜在 函数 是 复杂 的 ， 并 且 由 输入 分 布 的 规律 塑造 ， 那 么 无 监督 学 习 更 适合 作为 正则 
化 项 。 

除了 这 些 注意 事项 外 , 我 们 现在 分 析 一 些 无 监督 预 训练 改善 性 能 的 成 功 示例 , 并 
解释 这 种 改进 发 生 的 已 知 原因 。 无 监督 预 训练 通常 用 来 改进 分 类 器 ， 并 且 从 减少 测 
试 集 误 差 的 观点 来 看 是 很 有 意思 的 。 然 而 ， 无 监督 预 训练 还 有 助 于 分 类 以 外 的 任务 ， 
并 且 可 以 用 于 改进 优化 ， 而 不 仅仅 只 是 作为 正则 化 项 。 例 如 ， 它 可 以 提高 去 噪 自 编 
码 器 的 训练 和 测试 重 构 误 差 (Hinton and Salakhutdinov, 2006)。 

Erhan et ol. (2010) 进行 了 许多 实验 来 解释 无 监督 预 训练 的 几 个 成 功 原因 。 对 训 
练 误 差 和 测试 误差 的 改进 都 可 以 解释 为 ， 无 监督 预 训 练 将 参数 引入 到 了 其 他 方法 可 
能 探索 不 到 的 区 域 。 神 经 网 络 训练 是 非 确定 性 的 ， 并 且 每 次 运行 都 会 收敛 到 不 同 的 
函数 。 训 练 可 以 停止 在 梯度 很 小 的 点 ; 也 可 以 提前 终止 结束 训练 ， 以 防 过 拟 合 ; 还 可 
以 停止 在 梯度 很 大 ， 但 由 于 诸如 随机 性 或 Hessian 抢 阵 病态 条 件 等 问题 难以 找到 合 
适 下 降 方向 的 点 。 经 过 无 监督 预 训练 的 神经 网 络 会 一 致 地 停止 在 一 片 相 同 的 函数 空 
间 区 域 ， 但 未 经 过 预 训练 的 神经 网 络 会 一 致 地 停 在 另 一 个 区 域 。 图 15.1 可 视 化 了 这 
种 现象 。 经 过 预 训练 的 网 络 到 达 的 区 域 是 较 小 的 ， 这 表明 预 训练 减少 了 估计 过 程 的 
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方差 ， 这 进而 又 可 以 降低 严重 过 拟 合 的 风险 。 换 言 之 ， 无 监督 预 训练 将 神经 网 络 参 
数 初始 化 到 它们 不 易 逃 逸 的 区 域 ， 并 且 遵 循 这 种 初始 化 的 结果 更 加 一 致 ， 和 没有 这 
种 初始 化 相 比 ， 结 果 很 差 的 可 能 性 更 低 。 

Erhan ef o (2010) 也 回答 了 何 时 预 训练 效果 最 好 一 一 预 训练 的 网 络 越 深 ， 测 试 
误差 的 均值 和 方差 下 降 得 越 多 。 值 得 注意 的 是 ， 这 些 实验 是 在 训练 非常 深层 网 络 的 
现代 方法 发 明和 流行 (整流 线 性 单元 ，Dropout 和 批 标准 化 ) 之 前 进行 的 ， 因 此 对 
于 无 监督 预 训练 与 当前 方法 的 结合 ， 我 们 所 知 甚 少 。 

一 个 重要 的 问题 是 无 监督 预 训练 是 如 何 起 到 正则 化 项 作用 的 。 一 个 假设 是 , 预 训 
练 鼓励 学 习 算 法 发 现 那些 与 生成 观察 数据 的 光 在 原因 相关 的 特征 。 这 也 是 启发 除 无 
监督 预 训 练 之 外 许多 其 他 算法 的 重要 思想 ， 将 会 在 第 15.3 节 中 进一步 讨论 。 

与 无 监督 学 习 的 其 他 形式 相 比 ， 无 监督 预 训练 的 缺点 是 其 使 用 了 两 个 单独 的 训 
练 阶段 。 很 多 正则 化 技术 都 具有 一 个 优点 ， 允 许 用 户 通过 调整 单一 超 参 数 的 值 来 控 
制 正 则 化 的 强度 。 无 监督 预 训练 没有 一 种 明确 的 方法 来 调整 无 监督 阶段 正则 化 的 强 
度 。 相 反 ,， 无 监督 预 训 练 有 许多 超 参 数 ， 但 其 效果 只 能 之 后 度量 ， 通 常 难以 提前 预 
测 。 当 我 们 同时 执行 无 监督 和 监督 学 习 而 不 使 用 预 训练 策略 时 , 会 有 单个 超 参数 ( 通 
常 是 附加 到 无 监督 代价 的 系数 ) 控制 无 监督 目标 正则 化 监督 模型 的 强度 。 减 少 该 系 
数 ， 总 是 能 够 可 预测 地 获得 较 少 正则 化 强度 。 在 无 监督 预 训练 的 情况 下 ， 没 有 一 种 
灵活 调整 正则 化 强度 的 方式 一 一 要 么 监督 模型 初始 化 为 预 训练 的 参数 ， 要 人 么 不 是 。 

具有 两 个 单独 的 训练 阶段 的 另 一 个 缺点 是 每 个 阶段 都 具有 各 自 的 超 参数 。 第 二 
阶段 的 性 能 通常 不 能 在 第 一 阶段 期 间 预 测 ， 因 此 在 第 一 阶段 提出 超 参数 和 第 二 阶段 
根据 反馈 来 更 新 之 间 存 在 较 长 的 延迟 。 最 通用 的 方法 是 在 监督 阶段 使 用 验证 集 上 的 
误差 来 挑选 预 训练 阶段 的 超 参数 ， 如 Larochelle et ol. (2009) 中 讨论 的 。 在 实际 中 ， 
有 些 超 参 数 ， 如 预 训练 迭代 的 次 数 ， 很 方便 在 预 训 练 阶段 设 定 ， 通 过 无 监督 目标 上 
使 用 提前 终止 策略 完成 。 这 个 策略 并 不 理想 ， 但 是 在 计算 上 比 使 用 监督 目标 代价 小 
得 多 。 

如 今 , 大 部 分 算法 已 经 不 使 用 无 监督 预 训练 了 , 除了 在 自然 语言 处 理 领 域 中 单词 
作为 one-hot 向 量 的 自然 表示 不 能 传达 相似 性 信息 ， 并 且 有 非常 多 的 未 标注 数据 集 
可 用 。 在 这 种 情况 下 ,， 预 训练 的 优点 是 可 以 对 一 个 巨大 的 未 标注 集合 〈 例如 用 包含 数 
十 亿 单 词 的 语料库 ) 进行 预 训练 ,学 习 良 好 的 表示 【通常 是 单词 ， 但 也 可 以 是 句子 )， 
然后 使 用 该 表示 或 精 调 它 ， 使 其 适合 于 训练 集 样本 大 幅 减少 的 监督 任务 。 这 种 方法 
由 Collobert and Weston (2008b) 、Turian et ol. (2010) 和 Collobert et ol. (2011a) 
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图 15.1: 在 函数 空间 (并非 参数 空间 ， 避 免 从 参数 向 量 到 函数 的 多 对 一 映射 ) 不 同 神经 网 络 的 学 
习 轨 迹 的 非 线性 映射 的 可 视 化 。 不 同 网 络 采用 不 同 的 随机 初始 化 ， 并 且 有 的 使 用 了 无 监督 预 训练 ， 
有 的 没有 。 每 个 点 对 应 着 训练 过 程 中 一 个 特定 时 间 的 神经 网 络 。 经 Erhan et o/. (2010) 许可 改编 此 
图 。 函 数 空间 中 的 坐标 是 关于 每 组 输入 z 和 它 的 一 个 输出 y 的 无 限 维 向 量 。Erhan et al1. (2010) 
将 很 多 特定 z 的 y 连接 起 来 ， 线 性 投影 到 高 维 空间 中 。 然 后 他 们 使 用 Isomap (Tenenbaum et a/,， 
2000) 进行 进一步 的 非 线性 投影 并 投 到 二 维 空间 。 颜 色 表示 时 间 。 所 有 的 网 络 初始 化 在 上 图 的 中 心 
点 附近 (对 应 的 函数 区 域 在 不 多 数 输入 上 具有 近似 均匀 分 布 的 类 别 y )。 随 着 时 间 推 移 ， 学 习 将 函 
数 向 外 移动 到 预测 得 更 好 的 点 。 当 使 用 预 训 练 时 ， 训 练 会 一 致 地 收银 到 同一 个 区 域 ; 而 不 使 用 预 
训练 时 ， 训 练 会 收敛 到 另 一 个 不 重 受 的 区 域 。Isomap 试图 维持 全 局 相对 距离 (体积 因此 也 保持 不 
变 )， 因 此 使 用 预 训 练 的 模型 对 应 的 较 小 区 域 意味 着 ， 基 于 预 训练 的 估计 具有 较 小 的 方差 。 
























































































































































开创 ， 至 今 仍 在 使 用 。 

基于 监督 学 习 的 深度 学 习 技 术 ， 通 过 Dropont 或 批 标准 化 来 正则 化 ， 能 够 在 很 
多 任务 上 达到 人 类 级 别 的 性 能 ， 但 仅仅 是 在 极 大 的 标注 数据 集 上 。 在 中 等 大 小 的 数 
据 集 (例如 CIFAR-10 和 MNIST， 每 个 类 大 约 有 5,000 个 标注 样本 ) 上 ， 这 些 技术 
的 效果 比 无 监督 预 训 练 更 好 。 在 极 小 的 数据 集 ， 例 如 选择 性 剪接 数据 集 ， 贝 叶 斯 方 
法 要 优 于 基于 无 监督 预 训练 的 方法 (Srivastava, 2013)。 由 于 这 些 原 因 ， 无 监督 预 训 
练 已 经 不 如 以 前 流行 。 然 而 ， 无 监督 预 训练 仍然 是 深度 学 习 研 究 历史 上 的 一 个 重要 
里 程 碑 ， 并 将 继续 影响 当代 方法 。 预 训练 的 想法 已 经 推广 到 监督 预 训练 ( supervised 
pretraining )， 这 将 在 第 8.7.4 节 中 讨论 ,在 迁移 学 习 中 这 是 非常 常用 的 方法 。 迁 移 学 
习 中 的 监督 预 训练 流行 (Oquab et al., 2014; Yosinski et al., 2014) 于 在 ImageNet 数 
据 集 上 使 用 卷 积 网 络 预 训 练 。 由 于 这 个 原因 ， 实 践 者 们 公布 了 这 些 网 络 训练 出 的 参 
数 ， 就 像 自 然 语 言 任 务 公布 预 训 练 的 单词 向 量 一 样 (Collobert et al., 2011a; Mikolov 
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et al.,， 2013a)。 
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迁移 学 习 和 领域 自 适 应 指 的 是 利用 一 个 情景 (例如 ， 分 布 妃 ) 中 已 经 学 到 的 内 
容 去 改善 另 一 个 情景 (比如 分 布 刀 ) 中 的 泛 化 情况 。 这 点 概括 了 上 一 他 提 出 的 想法 ， 
即 在 无 监督 学 习 任 务 和 监督 学 习 任务 之 间 转 移 表 示 。 

在 迁移 学 习 (transfer learning ) 中 ， 学 习 央 必须 执行 两 个 或 更 多 个 不 同 的 任务 ， 
但 是 我 们 假设 能 够 解释 已 变化 的 许多 因素 和 学 习 饭 需要 抓 住 的 变化 相关 。 这 通常 
能 够 在 监督 学 习 中 解释 ， 输 入 是 相同 的 ， 但 是 输出 不 同 的 性 质 。 例 如 ， 我 们 可 能 在 
第 一 种 情景 中 学 习 了 一 组 视觉 类 别 ， 比 如 猫 和 狗 ， 然 后 在 第 二 种 情景 中 学 习 一 组 不 
同 的 视觉 类 别 ， 比 如 蚂蚁 和 黄蜂 。 如 果 第 一 种 情景 (从 已 采样 ) 中 具有 非常 多 的 数 
据 ， 那么 这 有 助 于 学 习 到 能 够 使 得 从 饭 抽取 的 非常 少 样本 中 快速 泛 化 的 表示 。 许 多 
视觉 类 别 共 享 一 些 低级 概念 ， 比 如 边缘 、 视 觉 形状 、 几 何 变化 、 光 照 变 化 的 影响 等 
等 。 一 般 而 言 ， 当 存在 对 不 同情 景 或 任务 有 用 特征 时 ， 并 且 这 些 特征 对 应 多 个 情景 
出 现 的 潜在 因素 ， 迁 移 学 习 、 多 任务 学 习 〈 第 7.7 节 ) 和 领域 自 适 应 可 以 使 用 表示 学 
习 来 实现 。 如 图 7.2 所 示 ， 这 是 具有 共享 底层 和 任务 相关 上 层 的 学 习 框架 。 

然而 ， 有 时 不 同 任务 之 间 共 享 的 不 是 输入 的 语义 ， 而 是 输出 的 语义 。 例 如 ， 语 
音 识别 系统 需要 在 输出 层 产 生 有 效 的 句子 ， 但 是 输入 附近 的 较 低 层 可 能 需要 识别 相 
同音 素 或 子音 素 发 音 的 非常 不 同 的 版 本 〈 这 取决 于 说 话 人 )。 在 这 样 的 情况 下 ， 共 享 
神经 网 络 的 上 层 〈 输 出 附近 ) 和 进行 任务 特定 的 预 处 理 是 有 意义 的 ， 如 图 15.2 所 示 。 

在 领域 自 适 应 (domain adaption ) 的 相关 情况 下 ， 在 每 个 情景 之 间 任 务 ( 和 最 
优 的 输入 到 输出 的 映射 ) 都 是 相同 的 , 但 是 输入 分 布 稍 有 不 同 。 例 如 , 考虑 情感 分 析 
的 任务 ， 如 判断 一 条 评论 是 表达 积极 的 还 是 消极 的 情绪 。 网 上 的 评论 有 许多 类 别 。 在 
书 、 视 频 和 音乐 等 媒体 内 容 上 训练 的 顾客 评论 情感 预测 器 ， 被 用 于 分 析 诸 如 电视 机 
或 智能 电话 的 消费 电子 产品 的 评论 时 ， 领 域 自 适 应 情景 可 能 会 出 现 。 可 以 想象 ， 存 
在 一 个 潜在 的 函数 可 以 判断 任何 语句 是 正面 的 、 中 性 的 还 是 负面 的 ， 但 是 词汇 和 风 
格 可 能 会 因 领 域 而 有 差异 ， 使 得 跨 域 的 泛 化 训练 变 得 更 加 困难 。 简 单 的 无 监督 预 训 
练 ( 去 品 自 编码 器 ) 已 经 能 够 非常 成 功 地 用 于 领域 自 适 应 的 情感 分 析 (Glorot et al 
2011c)。 


一 个 相关 的 问题 是 概念 漂移 (concept dritt )， 我 们 可 以 将 其 视 为 一 种 迁移 学 习 ， 
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图 15.2: 多 任务 学 习 或 者 迁移 学 习 的 架构 示例 。 输 出 变量 y 在 所 有 的 任务 上 具有 相同 的 语义 ; 输 
入 变量 x 在 每 个 任务 〈 或 者 ， 比 如 每 个 用 户 ) 上 具有 不 同 的 意义 〈 甚 至 可 能 具有 不 同 的 维度 )， 图 
上 三 个 任务 为 x 风 ，x@2) ，xG@)。 底 层 结构 ( 决定 了 选择 方向 ) 是 面向 任务 的 ， 上 层 结构 是 共享 的 。 
底层 结构 学 习 将 面向 特定 任务 的 输入 转化 为 通用 特征 。 































































































因为 数据 分 布 随时 间 而 逐渐 变化 。 概 念 漂移 和 迁移 学 习 都 可 以 被 视 为 多 任务 学 习 的 
特定 形式 “多 任务 学 习 ” 这 个 术语 通常 指 监督 学 习 任 务 ， 而 更 广义 的 迁移 学 习 的 概 
念 也 适用 于 无 监督 学 习 和 强化 学 习 。 

在 所 有 这 些 情况 下 ， 我 们 的 目标 是 利用 第 一 个 情景 下 的 数据 ， 提 取 那 些 在 第 二 
种 情景 中 学 习 时 或 直接 进行 预测 时 可 能 有 用 的 信息 。 表 示 学 习 的 核心 思想 是 相同 的 
表示 可 能 在 两 种 情景 中 都 是 有 用 的 。 两 个 情景 使 用 相同 的 表示 ， 使 得 表示 可 以 受益 
于 两 个 任务 的 训练 数据 。 

如 前 所 述 ， 迁移 学 习 中 无 监督 深度 学 习 已 经 在 一 些 机 器 学 习 比 赛 中 取得 了 成 
功 (Mesnil et al., 2011; Goodfellow et ww, 2011)。 这 些 比赛 中 的 某 一 个 实验 配置 如 
下 。 首 先 每 个 参与 者 获 得 一 个 第 一 种 情景 (来自 分布 已 ) 的 数据 集 ， 其 中 含有 一 些 
类 别 的 样本 。 参 与 者 必须 使 用 这 个 来 学 习 一 个 良好 的 特征 空间 (将 原始 输入 映射 到 
某 种 表示 )， 使 得 当 我 们 将 这 个 学 成 变换 用 于 来 自 迁 移 情景 (分布 书 ) 的 输入 时 , 线 
生 分 类 天 可 以 在 很 少 标注 样本 上 训练 、 并 泛 化 得 很 好 。 这 个 比赛 中 最 引 人 注 目的 结 
果 之 一 是 ， 学 习 表 示 的 网 络 架构 越 深 (在 第 一 个 情景 六 中 的 数据 使 用 纯 无 监督 方式 
学 习 ),， 在 第 二 个 情景 (迁移 ) 刀 的 新 类 别 上 学 习 到 的 曲线 就 越 好 。 对 于 深度 表示 而 
言 ， 迁 移 任务 只 需要 少量 标注 样本 就 能 显著 地 提升 泛 化 性 能 。 
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迁移 学 习 的 两 种 极端 形式 是 一 次 学 习 ( one-shot learning ) 和 零 次 学 习 ( zero- 
shot learning )， 有 时 也 被 称 为 零 数据 学 习 ( zero-data learning )。 只 有 一 个 标注 样本 
的 迁移 任务 被 称 为 一 次 学 习 ; 没有 标注 样本 的 迁移 任务 被 称 为 零 次 学 习 。 

因为 第 一 阶段 学 习 出 的 表示 就 可 以 清楚 地 分 离 出 潜在 的 类 别 ， 所 以 一 次 学 
习 (Fei-Fei et al., 2006) 是 可 能 的 。 在 迁移 学 习 阶 段 ， 仅 需要 一 个 标注 样本 来 推 斯 表 
示 空 间 中 聚集 在 相同 点 周围 许多 可 能 测试 样本 的 标签 。 这 使 得 在 学 成 的 表示 空间 中 ， 
对 应 于 不 变性 的 变化 因子 已 经 与 其 他 因子 完全 分 离 ， 在 区 分 某 些 类 别 的 对 象 时 ， 我 
们 可 以 学 习 到 哪些 因素 具有 决定 意义 。 

考虑 一 个 零 次 学 习 情 景 的 例子 ， 学 习 器 已 经 读 取 了 大 量 文本 ， 然 后 要 解决 对 象 
识别 的 问题 。 如 果 文 本 足够 好 地 描述 了 对 象 ， 那 么 即使 没有 看 到 某 对 象 的 图 像 ， 也 
能 识别 出 该 对 象 的 类 别 。 例 如 ， 已 知 猫 有 四 条 腿 和 尖 尖 的 耳 条 ， 那 么 学 习 器 可 以 在 
没有 见 过 猫 的 情况 下 猜测 该 图 像 中 是 猫 。 

只 有 在 训练 时 使 用 了 额外 信息 ， 零 数据 学 习 (Larochelle et ol., 2008) 和 零 次 学 
习 (Palatucci et ol., 2009; Socher et ul., 2013b) 才 是 有 可 能 的 。 我 们 可 以 认为 零 数 据 
学 习 场 景 包含 三 个 随机 变量 : 传统 输入 z， 传 统 输出 或 目标 y， 以 及 描述 任务 的 附 
加 随机 变量 厂 。 该 模型 被 训练 来 估计 条 件 分 布 p(y | 罗 丰 ， 其 中 了 是 我 们 希望 执行 
的 任务 的 描述 。 在 我 们 的 例子 中 ， 读 取 猪 的 文本 信息 然后 识别 猫 ， 输 出 是 二 元 变量 
yy 三 1 表示 “是 ”, y = 0 表示 “不 是 "。 任 务 变量 了 表示 要 回答 的 问题 ， 例 如 “这 
个 图 像 中 是 否 有 猫 ? ”如 果 训 练 集 包含 和 人 在 相同 空间 的 无 监督 对 象 样本 ， 我 们 也 
许 能 够 推断 未 知 的 了 实例 的 含义 。 在 我 们 的 例子 中 ， 没 有 提前 看 到 猪 的 图 像 而 去 识 
别 猫 ， 所 以 拥有 一 些 未 标注 文本 数据 包含 句子 诸如 “ 猫 有 四 条 腿 ” 或 “ 猫 有 尖 耳 休 ”， 
对 于 学 习 非 常 有 帮助 。 

零 次 学 习 要 求 了 被 表示 为 某 种 形式 的 泛 化 。 例 如 ,7 不 能 仅 是 指示 对 象 类 别 
的 one-hot 编 码 。 通 过 使 用 每 个 类 别 词 的 词 甬 人 表示 ，Socher et a/. (2013b) 提出 了 对 
象 类 别 的 分 布 式 表 示 。 

我 们 还 可 以 在 机 需 翻 译 中 发 现 一 种 类 似 的 现象 (Klementiev et al/., 2012; Mikolov 
et al., 2013b; Gouws et al., 2014): 我 们 已 经 知道 一 种 语言 中 的 单词 ， 还 可 以 学 到 单 
一 语言 语料库 中 词 与 词 之 间 的 关系 ; 另 一 方面 ， 我 们 已 经 翻译 了 一 种 语言 中 的 单词 
与 另 一 种 语言 中 的 单词 相关 的 句子 。 即 使 我 们 可 能 没有 将 语言 X 中 的 单词 4 翻译 
成 语言 Y 中 的 单词 如 的 标注 样本 ， 我 们 也 可 以 泛 化 并 猜 出 单词 4 的 翻译 ， 这 是 由 
于 我 们 已 经 学 习 了 语言 X 和 了 单词 的 分 布 式 表 示 ， 并 且 通 过 两 种 语言 句子 的 匹配 












































460 第 十 五 章 “ 表 示 学 习 


对 组 成 的 训练 样本 ， 产 生 了 关联 于 两 个 空间 的 链接 ( 可 能 是 双向 的 )。 如 果 联 合 学 习 
三 种 成 分 (两 种 表示 形式 和 它们 之 间 的 关系 )， 那 么 这 种 迁移 将 会 非常 成 功 。 

零 次 学 习 是 迁移 学 习 的 一 种 特殊 形式 。 同 样 的 原理 可 以 解释 如 何 能 执行 多 模 
态 学 习 (mnultimnodal learning )， 学 习 两 种 模 态 的 表示 ， 和 一 种 模 态 中 的 观察 结果 z 
与 另 一 种 模 态 中 的 观察 结果 y 组 成 的 对 (z, 9g) 之 间 的 关系 〈 通 党 是 一 个 联合 分 布 ) 
(Srivastava and Salakhutdinov, 2012)。 通 过 学 习 所 有 的 三 组 参数 (从 z 到 它 的 表示 、 
从 2 到 它 的 表示 ， 以 及 两 个 表示 之 间 的 关系 )， 一 个 表示 中 的 概念 被 锚 定 在 另 一 个 表 
示 中 ， 反 之 亦 然 ， 从 而 可 以 有 效 地 推广 到 新 的 对 组 。 这 个 过 程 如 岁 15.3 所 示 。 
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图 15.3: 两 个 域 和 y 之 间 的 迁移 学 习 能 够 进行 零 次 学 习 。 标 注 或 未 标注 样本 z 可 以 学 习 表 示 郴 
数 访 。 同 样 地 ， 样 本 y 也 可 以 学 习 表 示 函 数 访 。 上 图 中 访 和 方 旁 都 有 一 个 向 上 的 箭头 ， 不 同 
的 箭头 表示 不 同 的 作用 函数 。 并 且 箭头 的 类 型 表示 使 用 了 哪 一 种 函数 。 因 空间 中 的 相似 性 度量 
示 z 空间 中 任意 点 对 之 间 的 距离 ， 这 种 度量 方式 比 直接 度量 z 空间 的 距离 更 好 。 同 样 地 ，j 空间 
中 的 相似 性 度量 表示 y 空间 中 任意 点 对 之 间 的 距离 。 这 两 种 相似 函数 都 使 用 带 点 的 双向 箭头 表示 。 
标注 样本 (水平 虚 线 ) (z, 切 能 够 学 习 表 示 访 (z) 和 表示 方 ( 切 之 间 的 单 向 或 双向 映射 ( 实 双 向 箭 
头 )， 以 及 这 些 表示 之 间 如 何 锚 定 。 零 数据 学 习 可 以 通过 以 下 方法 实现 。 像 ziest 可 以 和 单词 Wes 
关联 起 来 ， 即 使 该 单词 没有 像 ， 仅 仅 是 因为 单词 表示 访 (W。s*) 和 像 表 示 访 (ztest) 可 以 通过 表示 空 
间 的 映射 彼此 关联 。 这 种 方法 有 效 的 原因 是 ， 尽 管 像 和 单词 没有 匹配 成 队 ， 但 是 它们 各 自 的 特征 
向 量 访 (ziest) 和 访 (w%。s) 互相 关联 。 上 图 受 Hrant Khachatrian 的 建议 启发 。 
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表示 学 习 的 一 个 重要 问题 是 “什么 原因 能 够 使 一 个 表示 比 另 一 个 表示 更 好 ? ”一 
种 假设 是 ， 理 想 表 示 中 的 特征 对 应 到 观测 数据 的 潜在 成 因 ， 特 征 空间 中 不 同 的 特征 
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或 方向 对 应 着 不 同 的 原因 ， 从 而 表示 能 够 区 分 这 些 原 因 。 这 个 假设 促使 我 们 去 寻找 
表示 p(z) 的 更 好 方法 。 如 果 Y 是 z 的 重要 成 因 之 一 ， 那么 这 种 表示 也 可 能 是 计算 
2p(y | 2o) 的 一 种 良好 表示 。 从 20 世纪 90 年 代 以 来 ， 这 个 想法 已 经 指导 了 大 量 的 深 
度 学 习 人 研究 工作 (Becker and Hinton,，1992; Hinton and Sejnowski, 1999)。 关 于 半 监 
督学 习 可 以 超过 纯 监 督学 习 的 其 他 论点 ， 请 读者 参考 Chapelle et ol/. (2006) 的 第 1.2 


二 


To 











在 表示 学 习 的 其 他 方法 中 ， 我 们 大 多 关注 易于 建 模 的 表示 一 一 例如 ， 数 据 稀 玻 
或 是 各 项 之 间 相 互 独立 的 情况 。 能 够 清楚 地 分 离 出 潜在 因素 的 表示 可 能 并 不 一 定 易 
于 建 模 。 然 而 ， 该 假设 促使 半 监 督学 习 使 用 无 监督 表示 学 习 的 一 个 更 深层 原因 是 ,对 
于 很 多 人 工 智能 任务 而 言 ， 有 两 个 相 随 的 特点 : 一 旦 我 们 能 够 获得 观察 结果 基本 成 
因 的 解释 ， 那 么 将 会 很 容易 分 离 出 个 体 属 性 。 具 体 来 说 ， 如 果 表 示 向 量 尹 表示 观察 
值 z 的 很 多 潜在 因素 ， 并 且 输 出 向 量 y 是 最 为 重要 的 原因 之 一 ,那么 从 瑚 预测 y 会 
很 容易 。 

首先 ， 让 我 们 看 看 pP(x) 的 无 监督 学 习 无 助 于 学 习 p(y | x) 时 ， 半 监督 学 习 为 何 
失败 。 例 如 , 考虑 一 种 情况 ，p(x) 是 均匀 分 布 的 ,我 们 希望 学 习 jz) = 正 [y | 四 。 显 
然 ， 仅 仅 观 察 训 练 集 的 值 z 不 能 给 我 们 关于 pz(y | x) 的 任何 信息 。 

接 下 来 ， 让 我 们 看 看 半 监 督学 习 成 功 的 一 个 简单 例子 。 考 虑 这 样 的 情况 ,，x 来 
自 一 个 混合 分 布 ， 每 个 y 值 具 有 一 个 混合 分 量 ， 如 图 15.4 所 示 。 如 果 混 合 分 量 很 好 
地 分 出 来 了 ,那么 建 模 p(x) 可 以 精确 地 指出 每 个 分 量 的 位 置 ， 每 个 类 一 个 标注 样本 
的 训练 集 足 以 精确 学 习 p(y | x)。 但 是 更 一 般 地 ， 什 么 能 将 p(y | x) 和 p(x) 关联 在 
一 起 呢 ? 

如 果 y 与 x 的 成 因 之 一 非常 相关 ， 那么 p(x) 和 pz(y | x) 也 会 紧密 关联 ， 试 图 
找到 变化 潜在 因素 的 无 监督 表示 学 习 可 能 像 半 监督 学 习 一 样 有 用 。 

假设 y 是 x 的 成 因 之 一 ,让 h 代表 所 有 这 些 成 因 。 真 实 的 生成 过 程 可 以 被 认为 
是 根据 这 个 有 向 图 模型 结构 化 出 来 的 ， 其 中 卫 是 x 的 父 节 点 : 
























































ZUh,x) = P(x | hb)p(b)， (15.1) 


因此 ， 数 据 的 边缘 概率 是 











plz) = Eap(z | 站， (15.2) 


从 这 个 直观 的 观察 中 , 我 们 得 出 结论 , x 最 好 可 能 的 模型 ( 从 广义 的 观点 ) 是 会 表示 
上 述 “ 真 实 ”结构 的 ， 其 中 疡 作为 潜 变 量 解释 z 中 可 观察 的 变化 。 上 文 讨论 的 “ 理 
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图 15.4: 混合 模型 。 具 有 三 个 混合 分 量 的 zx 上 混合 密度 示例 。 混 合 分 量 的 内 在 本 质 是 潜在 解释 因 
子 y。 因 为 混合 分 量 〈 例如， 图 像 数据 中 的 自然 对 象 类 别 ) 在 统计 学 上 是 显著 的 ， 所 以 仅仅 使 用 未 
标注 样本 无 监督 建 模 p(z) 也 能 揭示 解释 因子 y。 





























想 ” 的 表示 学 习 应 该 能 够 反映 出 这 些 潜在 因子 。 如 果 y 是 其 中 之 一 〈 或 是 紧密 关联 
于 其 中 之 一 )， 那 么 将 很 容易 从 这 种 表示 中 预测 y。 我 们 会 看 到 给 定 x 下 y 的 条 件 
分 布 通过 贝 叶 斯 规则 关联 到 上 式 中 的 分 量 : 





民 |y)Pty) 


了 
二 (45.3) 


因此 边缘 概率 p(x) 和 条 件 概率 p(y | x) 密切 相关 ， 前 者 的 结构 信息 应 该 有 助 于 学 习 
后 者 。 因 此 ， 在 这 些 假设 情况 下 ， 半 监督 学 习 应 该 能 提高 性 能 。 

关于 这 个 事实 的 一 个 重要 的 研究 问题 是 ， 大 多 数 观察 是 由 极其 大 量 的 潜在 成 
因 形 成 的 。 假 设 y = i， 但 是 无 监督 学 习 需 并 不 知道 是 哪 一 个 hm。 对 于 一 个 无 监 
督学 习 器 暴力 求解 就 是 学 习 一 种 表示 ， 这 种 表示 能 够 捕获 所 有 合理 的 重要 生成 因子 
hj ， 并 将 它们 彼此 区 分 开 来 ， 因 此 不 管 hn; 是 否 关 联 于 y， 从 了 预测 y 都 是 容易 的 。 

在 实践 中 ， 暴 力求 解 是 不 可 行 的 ， 因 为 不 可 能 捕获 影响 观察 的 所 有 或 大 多 数 变 
化 因素 。 例 如 , 在 视觉 场景 中 ,表示 是 否 应 该 对 背景 中 的 所 有 最 小 对 象 进行 编码 ? 根 
据 一 个 有 据 可 查 的 心理 学 现象 ， 人们 不 会 察觉 到 环境 中 和 他 们 所 在 进行 的 任务 并 不 
立刻 相关 的 变化 ， 具 体例 子 可 以 参考 Simons and Levin (1998)。 半 监督 学 习 的 一 个 
重要 研究 前 沿 是 确定 每 种 情况 下 要 编码 人 什么。 目前， 处理 大 量 潜在 原因 的 两 个 主要 
策略 是 ， 同 时 使 用 无 监督 学 习 和 监督 学 习 信号 ， 从 而 使 得 模型 捕获 最 相关 的 变动 因 
素 ， 或 是 使 用 纯 无 监督 学 习 学 习 更 大 规模 的 表示 。 
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无 监督 学 习 的 另 一 个 思路 是 选择 一 个 更 好 的 确定 哪些 潜在 因素 最 为 关键 的 定义 。 
之 前 ， 自 编码 器 和 生成 模型 被 训练 来 优化 一 个 类 似 于 均 方 误差 的 固定 标准 。 这 些 固 
定 标准 确定 了 哪些 因素 是 重要 的 。 人 例如， 图像 像素 的 均 方 误差 隐 式 地 指定 ， 一 个 淤 
在 因素 只 有 在 其 显著 地 改变 大 量 像素 的 亮度 时 ， 才 是 重要 影响 因素 。 如 果 我 们 希望 
解决 的 问题 涉及 到 小 对 象 之 间 的 相互 作用 ， 那 么 这 将 有 可 能 遇 到 问题 。 如 图 15.5 所 
示 , 在 机 需 人 任务 中 ,， 自 编码 顺 未 能 学 习 到 编码 小 乒乓 球 。 同 样 是 这 个 机 器 人 , 它 可 
以 成 功 地 与 更 大 的 对 象 进行 交互 〈 例如 棒球 ， 均 方 误 差 在 这 种 情况 下 很 显著 )。 


输入 重 构 





图 15.5: 机 器 人 任务 上 ， 基 于 均 方 误差 训练 的 自 编码 器 不 能 重 构 乒 乓 球 。 乒 乓 球 的 存在 及 其 所 有 空 
间 坐 标 ， 是 生成 图 像 且 与 机 器 人 任务 相关 的 重要 潜在 因素 。 不 地 的 是 ， 自 编码 咒 具 有 有 限 的 容量 ， 
基于 均 方 误差 的 训练 没 能 将 兵 乓 球 作为 显著 物体 识别 出 来 编码 。 以 上 图 像 由 Chelsea Finn 提供 。 



































还 有 一 些 其 他 的 显著 性 的 定义 。 例 如 ， 如 果 一 组 像素 具有 高 度 可 识别 的 模式 , 那 
么 即使 该 模式 不 涉及 到 极端 的 亮度 或 暗 度 ， 该 模式 还 是 会 被 认为 非常 显著 。 实 现 这 
样 一 种 定义 显著 的 方法 是 使 用 最 近 提 出 的 生成 式 对 抗 网 络 ( generative adversarial 
network ) (Goodfellow et al., 2014c)。 在 这 种 方法 中 ， 生 成 模型 被 训练 来 愚弄 前 馈 分 
类 句 。 前 狂 分 类 需 尝 试 将 来 自生 成 模型 的 所 有 样本 识别 为 假 的 ， 并 将 来 自 训 练 集 的 
所 有 样本 识别 为 真 的 。 在 这 个 框架 中 ， 前 人 馈 网 络 能 够 识别 出 的 任何 结构 化 模式 都 是 
非常 显著 的 。 生 成 式 对抗 网 络 会 在 第 20.10.4 节 中 更 详细 地 介绍 。 为 了 统 述 方便 ， 知 
道 它 能 学 习 出 如 何 决定 什么 是 显著 的 就 可 以 了 。Lotter et ol/. (2015) 表明 ,生成 人 类 
头 部 头像 的 模型 在 使 用 均 方 误差 训练 时 往往 会 忽视 耳 杀 ， 但 是 对 抗 式 框架 学 习 能 够 
成 功 地 生成 耳 条 。 因 为 耳 条 与 周围 的 皮肤 相 比 不 是 非常 明亮 或 黑暗 ， 所 以 根据 均 方 
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误差 损失 它们 不 是 特别 突出 ， 但 是 它们 高 度 可 识别 的 形状 和 一 致 的 位 置 意味 着 前 饥 
网 络 能 够 轻易 地 学 习 出 如 何 检测 它们 ， 从 而 使 得 它们 在 生成 式 对 抗 框架 下 是 高 度 突 
出 的 。 图 15.6 给 了 一 些 样 例 图 片 。 生 成 式 对 抗 网 络 只 是 确定 应 该 表示 哪些 因素 的 一 
小 步 。 我 们 期 望 未 来 的 研究 能 够 发 现 更 好 的 方式 来 确定 表示 哪些 因素 ， 并 且 根 据 任 
务 来 开发 表示 不 同 因素 的 机 制 。 





MSE 对 抗 学 习 














图 15.6: 预测 生成 网 络 是 一 个 学 习 哪些 特征 显著 的 例子 。 在 这 个 例子 中 , 预测 生成 网 络 已 被 训练 成 
在 特定 视角 预测 人 头 的 3D 模型 。( 左 ) 真实 情况 。 这 是 一 张 网 络 应 该 生成 的 正确 图 片 。( 中 ) 由 具 
有 均 方 误差 的 预测 生成 网 络 生成 的 图 片 。 因 为 与 相 邻 皮肤 相 比 ， 耳 基 不 会 引起 亮度 的 极 大 差异 ， 所 
以 它们 的 显著 性 不 足以 让 模型 学 习 表 示 它 们 。( 右 ) 由 具有 均 方 误差 和 对 抗 损失 的 模型 生成 的 图 片 。 
使 用 这 个 学 成 的 代价 函数 ， 由 于 耳 休 遵循 可 预测 的 模式 ， 因 此 耳 洒 是 显著 重要 的 。 学 习 哪 些 原因 
对 于 模型 而 言 是 足够 重要 和 相关 的 ， 是 一 个 重要 的 活跃 研究 领域 。 以 上 岁 片 由 Lotter et al (2015) 
提供 。 














正如 Sch5lkopf et ol. (2012) 指出 ， 学 习 湾 在 因素 的 好 处 是 ， 如 果真 实 的 生成 过 
程 中 x 是 结果 ，y 是 原因 ,那么 建 模 p(x | y) 对 于 p(y) 的 变化 是 鲁 棒 的 。 如 果 因 果 
关系 被 道 转 ， 这 是 不 对 的 ， 因 为 根据 贝 叶 斯 规则 ，p(x | y) 将 会 对 pz(y) 的 变化 十 分 
敏感 。 很 多 时 候 ， 我 们 考虑 分 布 的 变化 〈 由 于 不 同 领域 、 时 间 不 稳定 性 或 任务 性 质 
的 变化 ) 时 ， 因 果 机 制 是 保持 不 变 的 〈“ 宇 宙 定 律 不 变 ”)， 而 淤 在 因素 的 边缘 分 布 是 
会 变化 的 。 因 此 ， 通 过 学 习 试 图 恢复 成 因 向 量 h 和 p(x | b) 的 生成 模型 ， 我 们 可 以 
期 望 最 后 的 模型 对 所 有 种 类 的 变化 有 更 好 的 谤 化 和 租 棒 性 。 
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15.4 分布 式 表示 


分 布 式 表 示 的 概念 〈 由 很 多 元 素 组 合 的 表示 ， 这 些 元 素 之 间 可 以 设置 成 可 分 离 
的 ) 是 表示 学 习 最 重要 的 工具 之 一 。 分 布 式 表示 非常 强大 ， 因 为 他 们 能 用 具有 有 个 
值 的 ”个 特征 去 描述 很 个 不 同 的 概念 。 正 如 我 们 在 本 书 中 看 到 的 ， 具有 多 个 隐藏 单 
元 的 神经 网 络 和 具有 多 个 淤 变量 的 概率 模型 都 利用 了 分 布 式 表 示 的 策略 。 我 们 现在 
再 介绍 一 个 观察 结果 。 许 多 深度 学 习 算法 基于 的 假设 是 ， 隐 藏 单元 能 够 学 习 表 示 出 
解释 数据 的 潜在 因果 因子 ， 就 像 第 15.3 节 中 讨论 的 一 样 。 这 种 方法 在 分 布 式 表 示 上 
是 自然 的 ， 因 为 表示 空间 中 的 每 个 方向 都 对 应 着 一 个 不 同 的 浴 在 配置 变量 的 值 。 

7 维 二 元 向 量 是 一 个 分 布 式 表 示 的 示例 ， 有 2” 种 配置 ， 每 一 种 都 对 应 输入 空间 
中 的 一 个 不 同 区 域 ， 如 图 15.7 所 示 。 这 可 以 与 符号 表示 相 比 较 ， 其 中 输入 关联 到 单 
一 符号 或 类 别 。 如 果 字 典 中 有 个 符号 ， 那 么 可 以 想象 有 7 个 特征 监测 器 ， 每 个 
特征 探测 融 监 测 相关 类 别 的 存在 。 在 这 种 情况 下 ， 只 有 表示 空间 中 ? 个 不 同 配置 才 
有 可 能 在 输入 空间 中 刻画 m 个 不 同 的 区 域 ， 如 图 15.8 所 示 。 这 样 的 符号 表示 也 被 称 
为 one-hot 表示 ， 因 为 它 可 以 表示 成 相互 排斥 的 见 维 二 元 向 量 〈 其 中 只 有 一 位 是 激 
活 的 )。 符 号 表示 是 更 广泛 的 非 分 布 式 表 示 类 中 的 一 个 具体 示例 ， 它 可 以 包含 很 多 条 
目 ， 但 是 每 个 条 目 没 有 显著 意义 的 单独 控制 作用 。 

以 下 是 基于 非 分 布 式 表示 的 学 习 算 法 的 示例 : 



































。 聚 类 算法 ， 包 含 上 means 算法 : 每 个 输入 点 恰好 分 配 到 一 个 类 别 。 


。/- 最 近邻 算法 : 给 定 一 个 输入 ,一 个 或 几 个 模板 或 原型 样本 与 之 关联 。 在 大 > 1 
的 情况 下 ， 每 个 输入 都 使 用 多 个 值 来 描述 ， 但 是 它们 不 能 彼此 分 开 控制 ， 因 此 
这 不 能 算 真正 的 分 布 式 表示 。 





。 决策 树 : 给 定 输入 时 ， 只 有 一 个 叶 节点 〈 和 从 根 到 该 叶 节点 路 径 上 的 点 ) 是 被 
激活 的 。 
。 高 斯 混合 体 和 专家 混合 体 : 模板 〈 聚 类 中 心 ) 或 专家 关联 一 个 激活 的 程度 。 和 
大 最 近邻 算法 一 样 ， 每 个 输入 用 多 个 值 表 示 ， 但 是 这 些 值 不 能 轻易 地 彼此 分 开 
控制 。 








。 具有 高 斯 核 〈 或 其 他 类 似 的 局 部 核 ) 的 核 机 器 : 尽管 每 个 “支持 向 量 ”或 模板 
样本 的 激活 程度 是 连续 值 ， 但 仍然 会 出 现 和 高 斯 混合 体 相 同 的 问题 。 
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用 2 几 3 


疡 = [1,0,0] 
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疡 = [0,1,0] 六 = [0,11 








娘 = [0,0,1] 





图 15.7: 基于 分 布 式 表示 的 学 习 算法 如 何 将 输入 空间 分 割 成 多 个 区 域 的 图 示 。 这 个 例子 具有 二 元 























变量 和 ，j 加 ，jia。 每 个 特征 通过 为 学 成 的 线性 变换 设 定 输出 阀 值 而 定义 。 每 个 特征 将 尺 ” 分 成 
个 半 平 面 。 令 岂 表示 输入 点 大 = 1L 的 集合 ; /5 表示 输入 点 属 = 0 的 集合 。 在 这 个 图 示 中 ， 每 
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条 线 代 表 着 一 个 廊 的 决策 边界 ， 对 应 的 箭头 指向 边界 的 jz 区 域 。 整 个 表示 在 这 些 半 平 面 的 每 个 
相交 区 域 都 指定 一 个 唯一 值 。 例 如 ， 表 示 值 为 [1, 1,1I ”对 应 着 区 域 邮 地 m 夺 。 可 以 将 以 上 表 
示 和 图 15.8 中 的 非 分 布 式 表 示 进 行 比 较 。 在 输入 维度 是 d 的 一 般 情 况 下 ， 分 布 式 表示 通过 半空 间 























( 而 不 是 半 平 面 ) 的 交叉 分 割 有 4。 具有 m 个 特征 的 分 布 式 表 示 给 O(n4) 个 不 同 区 域 分 配 唯一 的 编 
人 码 ， 而 具有 7 个 样本 的 最 近邻 算法 只 能 给 m” 个 不 同 区 域 分 配 唯 
















































































的 编码 。 因 此 ， 分 布 式 表 示 能 够 





比 非 分 布 式 表 示 多 分 配 指数 级 的 区 域 。 注 意 并 非 所 有 的 产值 都 是 可 取 的 (这 个 例子 中 没有 疡 = 0 )， 
在 分 布 式 表示 上 的 线性 分 类 器 不 能 向 每 个 相 邻 区 域 分 配 不 同 的 类 别 标识 ; 甚至 深度 线性 闪 值 网 络 
的 VC 维 只 有 O(wlogw) (其 中 w 是 权重 数目 ) (Sontag, 1998)。 强 表示 层 和 弱 分 类 器 层 的 组 合 
是 一 个 强 正 则 化 项 。 试 图 学 习 “ 人 ”和 “ 非 人 ”概念 的 分 类 需 不 需要 给 表示 为 “ 戴 腿 镜 的 女人 ”和 






































“没有 戴 眼 镜 的 男人 ”的 输入 分 配 不 同 的 类 别 。 容 量 限 制 鼓 
以 线性 可 分 的 方式 学 习 表 示 这 些 类 别 。 





























个 分 类 器 关注 少数 几 个 记 ， 鼓 励 天 


。 基于 -gram 的 语言 或 翻译 模型 : 根据 后 绥 的 树 结构 划分 上 下 文集 合 〈 符 号 序 
列 )。 例 如 ， 一 个 叶 节 点 可 能 对 应 于 最 后 两 个 单词 wal 和 wz。 树 上 的 每 个 叶 节 
点 分 别 佑 计 单独 的 参数 〈《 有些 共享 也 是 可 能 的 ) 





对 于 部 分 非 分 布 式 算法 而 言 ， 有 些 输出 并 非 是 恒定 的 ， 而 是 在 相 邻 区 域 之 间 内 
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图 15.8: 最 近邻 算法 如 何 将 输入 空间 分 成 不 同 区 域 的 图 示 。 最 近邻 算法 是 一 个 基于 非 分 布 式 表 示 的 
学 习 算 法 的 示例 。 不 同 的 非 分 布 式 算法 可 以 具有 不 同 的 几何 形状 ， 但 是 它们 通常 将 输入 空间 分 成 
区 域 ， 每 个 区 域 具有 不 同 的 参数 。 非 分 布 式 方法 的 优点 是 ,给 定 足 够 的 参数 ， 它 能 够 拟 合 一 个 训练 
集 ， 而 不 需要 复杂 的 优化 算法 。 因 为 它 直 接 为 每 个 区 域 独立 地 设置 不 同 的 参数 。 缺 点 是 ,， 非 分 布 式 
表示 的 模型 只 能 通过 平滑 先 验 来 局 部 地 泛 化 ， 因 此 学 习 波 峰 波 谷 多 于 样本 的 复杂 函数 时 ， 该 方法 
是 不 可 行 的 。 和 分 布 式 表示 的 对 比 ， 可 以 参照 图 15.7 。 
















































































插 。 参 数 (或 样本 ) 的 数量 和 它们 能 够 定义 区 域 的 数量 之 间 仍 保持 线性 关系 。 

将 分 布 式 表示 和 符号 表示 区 分 开 来 的 一 个 重要 概念 是 ， 由 不 同 概念 之 间 的 共享 
属性 而 产生 的 泛 化 。 作 为 纯 符号 ,“ 猫 ”和 “ 狗 ” 之 间 的 距离 和 任意 其 他 两 种 符号 的 
距离 一 样 。 然 而 ， 如 果 将 它们 与 有 意义 的 分 布 式 表 示 相 关联 ， 那 么 关于 猫 的 很 多 特 
点 可 以 推广 到 狗 ， 反 之 亦 然 。 例 如 ， 我 们 的 分 布 式 表示 可 能 会 包含 诸如 “具有 皮毛 ” 
或 “ 腿 的 数目 ”这 类 在 “ 猫 ” 和 “ 狗 ” 的 藤 入 上 具有 相同 值 的 项 。 正 如 第 12.4.2 节 所 
讨论 的 ， 作 用 于 单词 分 布 式 表示 的 神经 语言 模型 比 其 他 直接 对 单词 one-hot 表示 进 
行 操作 的 模型 泛 化 得 更 好 。 分 布 式 表 示 具 有 丰富 的 相似 性 空间 ， 语 义 上 相近 的 概念 
(或 输入 ) 在 距离 上 接近 ， 这 是 纯粹 的 符号 表示 所 缺少 的 特点 。 

在 学 习 算 法 中 使 用 分 布 式 表 示 何 时 以 及 为 什么 具有 统计 优势 ? 当 一 个 明显 复杂 
的 结构 可 以 用 较 少 参数 紧 致 地 表示 时 , 分 布 式 表 示 具 有 统计 上 的 优点 。 一 些 传统 的 非 
分 布 式 学 习 算 法 仅仅 在 平滑 假设 的 情况 下 能 够 泛 化 ， 也 就 是 说 如 果 尽 svw， 那么 学 习 
到 的 目标 函 数 了 通常 具有 jw) s juo) 的 性 质 。 有 许多 方法 来 形式 化 这 样 一 个 假设 ， 
但 其 结果 是 如 果 我 们 有 一 个 样本 (z, 轨 ,并 且 我 们 知道 fz) sy， 那 么 我 们 可 以 选取 
一 个 估计 志 近 似 地 满足 这 些 限 制 ， 并 且 当 我 们 移动 到 附近 的 输入 z+e 时 ，/ 尽 可 能 
少 地 发 生 改 变 。 显 然 这 个 假设 是 非常 有 用 的 ， 但 是 它 会 遭受 维 数 灾难 : 学 习 出 一 个 
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能 够 在 很 多 不 同 区 域 上 增加 或 减少 很 多 次 的 目标 函数 !, 我 们 可 能 需要 至 少 和 可 区 分 
区 域 数 量 一 样 多 的 样本 。 我 们 可 以 将 每 一 个 区 域 视 为 一 个 类 别 或 符号 : 通过 让 每 个 
符号 (或 区 域 ) 具有 单独 的 自由 度 ， 我 们 可 以 学 习 出 从 符号 映射 到 值 的 任意 解码 器 。 
然而 ， 这 不 能 推广 到 新 区 域 的 新 符号 上 。 

如 果 我 们 幸运 的 话 ， 除 了 平滑 之 外 ， 目 标 函 数 可 能 还 有 一 些 其 他 规律 。 例 如 ， 具 
有 最 大 池 化 的 卷 积 网 络 可 以 在 不 考虑 对 象 在 图 像 中 位 置 (即使 对 象 的 空间 变换 不 对 
应 输入 空间 的 平滑 变换 ) 的 情况 下 识别 出 对 象 。 

让 我 们 检查 分 布 式 表示 学 习 算 法 的 一 个 特殊 情况 ， 它 通过 对 输入 的 线性 函数 进 
行 闪 值 处 理 来 提取 二 元 特征 。 该 表示 中 的 每 个 二 元 特征 将 疏 4 分 成 一 对 半空 间 ， 如 
图 15.7 所 示 。7?2 个 相应 半空 间 的 指数 级 数量 的 交集 确定 了 该 分 布 式 表示 学 习 器 能 信 
区 分 多 少 区 域 。 空 间 到 4 中 的 ”个 超 平面 的 排列 组 合 能 够 生成 多 少 区 间 ? 通过 应 用 
关于 超 平面 交集 的 一 般 结 果 (Zaslavsky, 1975)， 我 们 发 现 (Pascanu et al., 2014b) 这 
个 二 元 特征 表示 能 够 区 分 的 空间 数量 是 
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因此 ， 我 们 会 发 现 关 于 输入 大 小 呈 指 数 级 增长 ， 关 于 隐藏 单元 的 数量 呈 多 项 式 级 增 
长 。 

这 提供 了 分 布 式 表 示 泛 化 能 力 的 一 种 几何 解释 : O(nd) 个 参数 (空间 慌 " 中 的 
个 线性 闪 值 特征 ) 能 够 明确 表示 输入 空间 中 O(n?) 个 不 同 区 域 。 如 果 我 们 没有 对 数 
据 做 任何 假设 ， 并 且 每 个 区 域 使 用 唯一 的 符号 来 表示 ， 每 个 符号 使 用 单独 的 参数 去 
识别 及” 中 的 对 应 区 域 ， 那 么 指定 O(n2) 个 区 域 需 要 O(nd) 个 样本 。 更 一 般 地 ， 分 
布 式 表示 的 优势 还 可 以 体现 在 我 们 对 分 布 式 表 示 中 的 每 个 特征 使 用 非 线性 的 、 可 能 
连续 的 特征 提取 器 ， 而 不 是 线性 闪 值 单元 的 情况 。 在 这 种 情况 下 ， 如 果 具 有 太 个 参 
数 的 参数 变换 可 以 学 习 输入 空间 中 的 ” 个 区 域 (有 冬 7 )， 并 且 如 果 学 习 这 样 的 表示 
有 助 于 关注 的 任务 ,那么 这 种 方式 会 比 非 分 布 式 情景 (我 们 需要 O(r) 个 样本 来 获得 
相同 的 特征 ， 将 输入 空间 相关 联 地 划分 成 ” 个 区 域 。) 泛 化 得 更 好 。 使 用 较 少 的 参数 
来 表示 模型 意味 着 我 们 只 需 拟 合 较 少 的 参数 ， 因 此 只 需要 更 少 的 训练 样本 去 获得 良 
好 的 泛 化 。 

另 一 个 解释 基于 分 布 式 表 示 的 模型 泛 化 能 力 更 好 的 说 法 是 ， 尽 管 能 够 明确 地 编 


1 一 般 来 说 ， 我 们 可 能 会 想 要 学 习 一 个 函数 ， 这 个 函数 在 指数 级 数量 区 域 的 表现 都 是 不 同 的 : 在 中 维 空间 中 ， 为 了 
区 分 每 一 维 ， 至 少 有 两 个 不 同 的 值 。 我 们 想 要 函数 矿区 分 这 24 个 不 同 的 区 域 ， 需 要 O(23) 量 级 的 训练 样本 
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码 这 么 多 不 同 的 区 域 ， 但 它们 的 容量 仍然 是 很 有 限 的 。 例 如 ， 线 性 闪 值 单元 神经 网 
络 的 VC 维 仅 为 O(wlogw)， 其 中 w 是 权重 的 数目 (Sontag, 1998)。 这 种 限制 出 现 
的 原因 是 ， 虽 然 我 们 可 以 为 表示 空间 分 配 非常 多 的 唯一 码 ， 但 是 我 们 不 能 完全 使 用 
所 有 的 码 空间 ， 也 不 能 使 用 线性 分 类 器 学 习 出 从 表示 空间 疡 到 输出 y 的 任意 函数 映 
射 。 因 此 使 用 与 线性 分 类 器 相 结合 的 分 布 式 表示 传达 了 一 种 先 验 信念 ， 竺 识别 的 类 
在 万 代表 的 潜在 因果 因子 的 函数 下 是 线性 可 分 的 。 我 们 通常 想 要 学 习 类 别 ， 例 如 所 
有 绿色 对 象 的 图 像 集合 ， 或 是 所 有 汽车 图 像 集 合 ， 但 不 会 是 需要 非 线 性 XOR 逻辑 
的 类 别 。 例 如 ， 我 们 通常 不 会 将 数据 划分 成 所 有 红色 汽车 和 绿色 卡车 作为 一 个 集合 ， 
所 有 绿色 汽车 和 红色 卡车 作为 另 一 个 集合 。 

到 目前 为 止 讨 论 的 想法 都 是 抽象 的 ， 但 是 它们 可 以 通过 实验 验证 。Zhou et al 
(2015) 发 现 ,在 ImnageNet 和 Places 基准 数据 集 上 训练 的 深度 卷 积 网 络 中 的 隐藏 单 
元 学 成 的 特征 通 稼 是 可 以 解释 的 , 对 应 人 类 自然 分 配 的 标签 。 在 实践 中 ,隐藏 单元 并 
不 能 总 是 学 习 出 具有 简单 语言 学 名 称 的 事物 ， 但 有 趣 的 是 ， 这 些 事物 会 在 那些 最 好 
的 计算 机 视觉 深度 网 络 的 顶层 附近 出 现 。 这 些 特征 的 共同 之 处 在 于 ， 我 们 可 以 设想 
学 习 其 中 的 每 个 特征 不 需要 知道 所 有 其 他 特征 的 所 有 配置 。Radford et ol. (2015) 发 
现 生成 模型 可 以 学 习 人 脸 图 像 的 表示 ， 在 表示 空间 中 的 不 同方 向 捕获 不 同 的 潜在 变 
差 因 素 。 图 15.9 展示 表示 空间 中 的 一 个 方向 对 应 着 该 人 是 男性 还 是 女性 ， 而 另 一 个 
方向 对 应 着 该 人 是 否 戴 着 眼镜 。 这 些 特征 都 是 自动 发 现 的 ， 而 非 先 验 固定 的 。 我 们 
没有 必要 为 隐藏 单元 分 类 器 提供 标签 : 只 要 该 任务 需要 这 样 的 特征 ， 梯 度 下 降 就 能 
在 感 兴趣 的 目标 函数 上 自然 地 学 习 出 语义 上 有 趣 的 特征 。 我 们 可 以 学 习 出 男性 和 女 
性 之 间 的 区 别 ， 或 者 是 眼镜 的 存在 与 否 ， 而 不 必 通 过 涵盖 所 有 这 些 值 组 合 的 样本 来 
表征 其 他 交 一 工 个 特征 的 所 有 配置 。 这 种 形式 的 统计 可 分 离 性 质 能 够 泛 化 到 训练 期 
间 从 未 见 过 的 新 特征 上 。 
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15.9: 生成 模型 学 到 了 分 布 式 表示 ， 能 够 从 戴 眼 镜 的 概念 中 区 分 性 别 的 概念 。 如 果 我 们 从 一 个 
戴 眼 镜 的 男人 的 概念 表示 向 量 开 始 ， 然 后 减 去 一 个 没 戴 眼镜 的 男人 的 概念 表示 向 量 ， 最 后 加 上 一 
个 没 戴 眼 镜 的 女人 的 概念 表示 向 量 ， 那 么 我 们 会 得 到 一 个 戴 眼 镜 的 女人 的 概念 表示 向 量 。 生 成 模 
型 将 所 有 这 些 表示 向 量 正确 地 解码 为 可 被 识别 为 正确 类 别 的 图 像 。 图 片 转 载 许 可 自 Radford et ol 
(2015)。 
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我 们 已 经 在 第 6.4.1 节 中 看 到 ， 多 层 感知 机 是 万 能 近似 器 ， 相 比 于 浅 层 网 络 ， 一 
些 函 数 能 够 用 指数 级 小 的 深度 网 络 表示 。 缩 小 模型 规模 能 够 提高 统计 效率 。 在 本 节 
中 ， 我 们 描述 如 何 将 类 似 结果 更 一 般 地 应 用 于 其 他 具有 分 布 式 隐藏 表示 的 模型 。 

在 第 15.4 节 中 ， 我 们 看 到 了 一 个 生成 模型 的 示例 ， 能 够 学 习 人 脸 图 像 的 潜在 解 
释 因 子 ， 包 括 性 别 以 及 是 否 佩戴 眼镜 。 完 成 这 个 任务 的 生成 模型 是 基于 一 个 深度 神 
经 网 络 的 。 浅 层 网 络 例如 线性 网 络 不 能 学 习 出 这 些 抽象 解释 因子 和 图 像 像素 之 间 的 
复杂 关系 。 在 这 个 任务 和 其 他 AI 任务 中 ， 这 些 因 子 几乎 彼此 独立 地 被 抽取 ， 但 仍 
然 对 应 到 有 意义 输入 的 因素 ， 很 有 可 能 是 高 度 抽象 的 ， 并 且 和 输入 呈 高 度 非 线性 的 
关系 。 我 们 认为 这 需要 深度 分 布 式 表 示 ， 需 要 许多 非 线性 组 合 来 获得 较 高 级 的 特征 
(被 视 为 输入 的 函数 ) 或 因子 〈 被 视 为 生成 原因 )。 

在 许多 不 同情 景 中 已 经 证 明 , 非 线性 和 重用 特征 层次 结构 的 组 合 来 组 织 计 算 ,， 可 
以 使 分 布 式 表 示 获 得 指数 级 加 速 之 外 ， 还 可 以 获得 统计 效率 的 指数 级 提升 。 许 多 种 
类 的 只 有 一 个 隐藏 层 的 网 络 〈 例 如 ， 具 有 饱和 非 线性 ， 布 尔 门 ， 和 / 积 ， 或 RBF 单 
元 的 网 络 ) 都 可 以 被 视 为 万 能 近似 器 。 在 给 定 足够 多 隐藏 单元 的 情况 下 ， 这 个 模型 
族 是 一 个 万 能 近似 咒 ， 可 以 在 任意 非 零 允 错 级 别 近 似 一 大 类 函数 (包括 所 有 连续 上 
数 )。 然 而 ， 隐 藏 单 元 所 需 的 数量 可 能 会 非常 大 。 关 于 深层 架构 表达 能 力 的 理论 结果 
表明 ， 有 些 函 数 族 可 以 高 效 地 通过 深度 大 层 的 网 络 架构 表示 ， 但 是 深度 不 够 〈 深度 
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为 2 或 有 一 1) 时 会 需要 指数 级 (相对 于 输入 大 小 而 言 ) 的 隐藏 单元 。 

在 第 6.4.1 节 中 ， 我 们 看 到 确定 性 前 馈 网 络 是 函数 的 万 能 近似 需 。 许 多 具有 单 
个 隐藏 层 〈( 潜 变量 ) 的 结构 化 概率 模型 (包括 受 限 玻 尔 效 曼 机 ， 次 度 信念 网 络 ) 是 
概率 分 布 的 万 能 近似 器 (Le Roux and Bengio, 2008, 2010; Montdfar and Ay,，2011; 
Montufar, 2014; Krause et ol.，2013)。 

在 第 6.4.1 节 中 ， 我 们 看 到 足够 这 的 前 馈 网 络 会 比 深 度 不 够 的 网 络 具 有 指数 级 优 
势 。 这 样 的 结果 也 能 从 诸如 概率 模型 的 其 他 模型 中 获得 。 和 - 积 网 络 (sum-product 
network, SPN ) (Poon and Domingos, 2011) 是 这 样 的 一 种 概率 模型 。 这 些 模 型 使 
用 多 项 式 回 路 来 计算 一 组 随机 变量 的 概率 分 布 。Delalleau and Bengio (2011) 表明 存 
在 一 种 概率 分 布 , 对 SPN 的 最 小 深度 有 要 求 ， 以 避免 模型 规模 呈 指 数 级 增长 。 后 来 ， 
Martens and Medabalimi (2014) 表明 ， 任 意 两 个 有 限 深度 的 SPN 之 间 都 会 存在 显 
著 差 异 ， 并 且 一 些 使 SPN 易于 处 理 的 约束 可 能 会 限制 其 表示 能 力 。 

另 一 个 有 趣 的 进展 是 ， 一 系列 和 卷 积 网 络 相关 的 深度 回路 族 表达 能 力 的 理论 结 
果 ， 即 使 让 浅 度 回 路 只 去 近似 深度 回路 计算 的 函数 ， 也 能 突出 反映 深度 回路 的 指数 
级 优势 (Cohen et al., 2015)。 相 比 之 下 ， 以 前 的 理论 工作 只 研究 了 浅 度 回路 必须 精 
确 复制 特 定 函 数 的 情况 。 
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我 们 回 到 最 初 的 问题 之 一 来 结束 本 章 : 什么 原因 能 够 使 一 个 表示 比 妃 一 个 表示 
更 好 ? 首先 在 第 15.3 节 中 介绍 的 一 个 答案 是 ， 一 个 理想 的 表示 能 够 区 分 生成 数据 变 
化 的 潜在 因果 因子 ， 特 别 是 那些 与 我 们 的 应 用 相关 的 因素 。 表 示 学 习 的 大 多 数 策略 
都 会 引入 一 些 有 助 于 学 习 湾 在 变 差 因素 的 线索 。 这 些 线索 可 以 帮助 学 习 顺 将 这 些 观 
察 到 的 因素 与 其 他 因素 分 开 。 监 督学 习 提供 了 非常 强 的 线索 : 每 个 观察 向 量 z 的 标 
签 y， 它 通常 直接 指定 了 至 少 一 个 变 差 因素 。 更 一 般 地 ， 为 了 利用 丰富 的 未 标注 数 
据 ， 表 示 学 习 会 使 用 关于 潜在 因素 的 其 他 不 太 直 接 的 提示 。 这 些 提 示 包 含 一 些 我 们 
(学 习 算 法 的 设计 者 ) 为 了 引导 学 习 顺 而 强加 的 隐 式 先 验 信 息 。 诸 如 没有 免费 午餐 定 
理 的 这 些 结果 表明 ,正则 化 策略 对 于 获得 良好 泛 化 是 很 有 必要 的 。 当 不 可 能 找到 一 
个 普遍 良好 的 正则 化 策略 时 ， 深 度 学 习 的 一 个 目标 是 找到 一 套 相 当 通 用 的 正则 化 策 
略 ， 使 其 能 够 适用 于 各 种 各 样 的 AI 任务 〈 类似 于 人 和 动物 能 够 解决 的 任务 ) 

在 此 ， 我 们 提供 了 一 些 通用 正则 化 策略 的 列表 。 该 列表 显然 是 不 详尽 的 ， 但 是 
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给 出 了 一 些 学 习 算 法 是 如 何 发 现 对 应 潜在 因素 的 特征 的 具体 示例 。 该 列表 在 Bengio 
et al. (2013d) 的 第 3.1 节 中 提出 ， 这 里 进行 了 部 分 拓展 。 


平滑 : 假设 对 于 单位 & 和 小 量 e 有 jz+ed) s /zj)。 这 个 假设 允许 学 习 囊 从 
训练 样本 泛 化 到 输入 空间 中 附近 的 点 。 许 多 机 顺 学 习 算 法 都 利用 了 这 个 想法 ， 
但 它 不 能 克服 维 数 灾难 难题 。 


线性 : 很 多 学 习 算 法 假定 一 些 变量 之 间 的 关系 是 线性 的 。 这 使 得 算法 能 够 预测 
远离 观测 数据 的 点 ， 但 有 时 可 能 会 导致 一 些 极 端的 预测 。 大 多 数 简 单 的 学 习 
算法 不 会 做 平滑 假设 ， 而 会 做 线性 假设 。 这 些 假设 实际 上 是 不 同 的 ， 具 有 很 
大 权重 的 线性 函数 在 高 维 空间 中 可 能 不 是 非常 平滑 的 。 参 看 Goodfellow et o. 
(2014b) 了 解 关 于 线性 假设 局 限 性 的 进一步 讨论 。 


多 个 解释 因子 : 许多 表示 学 习 算法 受 以 下 假设 的 启发 ， 数 据 是 由 多 个 潜在 解释 
因子 生成 的 , 并 且 给 定 每 一 个 因子 的 状态 , 大 多 数 任务 都 能 轻易 解决 。 第 15.3 节 
描述 了 这 种 观点 如 何 通过 表示 学 习 来 启发 半 监 督学 习 的 。 学 习 p(z) 的 结构 要 
求学 习 出 一 些 对 建 模 P(y | z) 同样 有 用 的 特征 ， 因 为 它们 都 涉及 到 相同 的 湾 
在 解释 因子 。 第 15.4 节 介绍 了 这 种 观点 如 何 启发 分 布 式 表示 的 使 用 ， 表 示 空 间 
中 分 离 的 方向 对 应 着 分 离 的 变 差 因素 。 


因果 因子 : 该 模型 认为 学 成 表示 所 描述 的 变 差 因素 是 观察 数据 z 的 成 因 ， 而 
并 非 反 过 来 。 正 如 第 15.3 节 中 讨论 的 ， 这 对 于 半 监 督学 习 是 有 利 的 ， 当 潜在 成 
因 上 的 分 布 发 生 改 变 ， 或 者 我 们 应 用 模型 到 一 个 新 的 任务 上 时 ， 学 成 的 模型 都 
会 更 加 鲁 棒 。 


深度 ， 或 者 解释 因子 的 层次 组 织 : 高 级 抽象 概念 能 够 通过 将 简单 概念 层次 化 来 
定义 。 从 另 一 个 角度 来 看 ， 深 度 架 构 表 达 了 我 们 认为 任务 应 该 由 多 个 程序 步 双 
完成 的 观念 ， 其 中 每 一 个 步骤 回溯 到 先前 步 又 处 理 之 后 的 输出 。 


任务 间 共 享 因素 : 当 多 个 对 应 到 不 同 变量 yi 的 任务 共享 相同 的 输入 六 时， 或 
者 当 每 个 任务 关联 到 全 局 输入 x 的 子 集 或 者 函数 /0(x) 时 ， 我 们 会 假设 每 个 
变量 yi 关联 到 来 自 相 关 因 素 Rh 公共 池 的 不 同 子 集 。 因 为 这 些 子 集 有 重 琶 ， 所 
以 通过 共享 的 中 间 表 示 P(h | x) 来 学 习 所 有 的 P(yi | x) 能 够 使 任务 间 共 享 统 
计 强 度 。 


流 形 : 概率 质量 集中 ,并且 集中 区 域 是 局 部 连通 的 ， 且 占据 很 小 的 体积 。 在 连 
续 情 况 下 ， 这 些 区 域 可 以 用 比 数据 所 在 原始 空间 低 很 多 维 的 低 维 流 形 来 近似 。 
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很 多 机 需 学 习 算法 只 在 这 些 流 形 上 有 效 (Goodfellow et al., 2014b)。 一 些 机 器 
学 习 算 法 ， 特 别 是 自 编 码 句 ， 会 试图 显 式 地 学 习 流 形 的 结构 。 


自然 聚 类 : 很 多 机 顺 学 习 算 法 假设 输入 空间 中 每 个 连通 流 形 可 以 被 分 配 一 个 单 
独 的 类 。 数 据 分 布 在 许多 个 不 连通 的 流 形 上 ， 但 相同 流 形 上 数据 的 类 别 是 相同 
的 。 这 个 假设 激励 了 各 种 学 习 算 法 ， 包 括 正切 传播 、 双 反 向 传播 、 流 形 正切 分 
类 融和 对 抗 训练 。 


时 间 和 空间 相干 性 : 慢 特征 分 析 和 相关 的 算法 假设 ， 最 重要 的 解释 因子 随时 间 
变化 很 缓慢 ， 或 者 至 少 假设 预测 真实 的 潜在 解释 因子 比 预测 诸如 像素 值 这 类 原 
台 观 察 会 更 容易 些 。 读 者 可 以 参考 第 13.3 节 ， 进 一 步 了 解 这 个 方法 。 


稀 芷 性 : 假设 大 部 分 特征 和 大 部 分 输入 不 相关 ， 如 在 表示 猫 的 图 像 时 ， 没 有 必 
要 使 用 象 鼻 的 特征 。 因 此 ， 我 们 可 以 强加 一 个 先 验 ， 任 何 可 以 解释 为 “存在 ” 
或 “不 存在 ”的 特征 在 大 多 数 时 间 都 是 不 存在 的 。 


简化 因子 依赖 : 在 良好 的 高 级 表示 中 ， 因 子 会 通过 简单 的 依赖 相互 关联 。 最 简 
单 的 可 能 是 边缘 独立 ， 即 P(h) = I[L, P(h;)。 但 是 线性 依赖 或 浅 层 自 编 码 器 所 
能 表示 的 依赖 关系 也 是 合理 的 假设 。 这 可 以 从 许多 物理 定律 中 看 出 来 ， 并 且 假 
设 在 学 成 表示 的 顶层 搬入 线性 预测 器 或 分 解 的 先 验 。 














表示 学 习 的 概念 将 许多 深度 学 习 形 式 联 系 在 了 一 起 。 前 饥 网 络 和 循环 网 络 ， 自 
编码 器 和 深度 概率 模型 都 在 学 习 和 使 用 表示 。 学 习 最 佳 表示 仍然 是 一 个 令 人 兴奋 的 
研究 方向 。 
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蛋 滤 





深度 学 习 为 研究 者 们 提供 了 许多 建 模 方 式 ， 用 以 设计 以 及 描述 算法 。 其 中 一 
种 形式 是 结构 化 概率 模型 ( structured probabilistic model ) 的 思想 。 我 们 曾经 在 
第 3.14 节 中 简要 讨论 过 结构 化 概率 模型 。 此 前 简要 的 介绍 已 经 足够 使 我 们 充分 了 解 
如 何 使 用 结构 化 概率 模型 作为 描述 第 二 部 分 中 某 些 算法 的 语言 。 现 在 在 第 三 部 分 ， 
我 们 可 以 看 到 结构 化 概率 模型 是 许多 深度 学 习 重 要 研究 方向 的 关键 组 成 部 分 。 作 为 
讨论 这 些 研 究 方向 的 预备 知识 ， 本 章 将 更 加 详细 地 撒 述 结构 化 概率 模型 。 本 章 内 容 
是 自 洽 的 ， 所 以 在 阅读 本 章 之 前 读者 不 需要 回顾 之 前 的 介绍 。 

结构 化 概率 模型 使 用 图 来 描述 概率 分 布 中 随机 变量 之 间 的 直接 相互 作用 ， 从 
而 描述 一 个 概率 分 布 。 在 这 里 我 们 使 用 了 图 论 (一 系列 结 点 通过 一 系列 边 来 连接 ) 
中 “图 ”的 概念 ， 由 于 模型 结构 是 由 图 定义 的 ， 所 以 这 些 模 型 也 通常 被 称 为 图 模型 
( graphical model )。 

图 模型 的 研究 社 群 是 巨大 的 , 并 提出 过 大 量 的 模型 、 训 练 算法 和 推 肠 算法 。 在 本 
章 中 ， 我 们 将 介绍 图 模型 中 几 个 核心 方法 的 基本 背景 ， 并 且 重 点 描述 已 被 证 明 对 深 
度 学 习 社 群 最 有 用 的 观点 。 如 果 你 已 经 熟知 图 模型 ， 那 么 你 可 以 跳 过 本 章 的 绝 大 部 
分 。 然 而 ， 我 们 相信 和 即使 是 资深 的 图 模型 方向 的 研究 者 也 会 从 本 章 的 最 后 一 节 中 获 
益 菲 小 ， 详 见 第 16.7 节 ， 其 中 我 们 强调 了 在 深度 学 习 算法 中 使 用 图 模型 的 独特 方式 。 
相 比 于 其 他 图 模型 研究 领域 的 是 ， 深 度 学 习 的 研究 者 们 通常 会 使 用 完全 不 同 的 模型 
结构 、 学 习 算 法 和 推断 过 程 。 在 本 章 中 ， 我 们 将 指明 这 种 区 别 并 解释 其 中 的 原因 。 

我 们 首先 介绍 了 构建 大 规模 概率 模型 时 面临 的 挑战 。 之 后 , 我 们 介绍 如 何 使 用 一 
个 图 来 描述 概率 分 布 的 结构 。 尽 管 这 个 方法 能 够 帮助 我 们 解决 许多 挑战 和 问题 ， 它 
本 身 仍 有 很 多 缺陷 。 图 模型 中 的 一 个 主要 难点 就 是 判断 哪些 变量 之 间 存 在 直接 的 相 
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互 作 用 关系 , 也 就 是 对 于 给 定 的 问题 哪 一 种 图 结构 是 最 适合 的 。 在 第 16.5 节 中 , 我 们 
通过 了 解 依赖 (dependency )， 简 要 概括 了 解决 这 个 难点 的 两 种 方法 。 最 后 ， 作 为 本 
章 的 收尾 ， 我 们 在 第 16.7 节 中 讨论 深度 学 习 研 究 者 使 用 图 模型 特定 方式 的 独特 之 处 。 


16.1 ” 非 结 构 化 建 模 的 挑战 


深度 学 习 的 目标 是 使 得 机 天 学 习 能 够 解决 许多 人 工 智能 中 吸 需 解决 的 挑战 。 这 
意味 着 它们 能 够 理解 具有 丰富 结构 的 高 维 数据 。 举 个 例子 ， 我 们 希望 AI 的 算法 能 
够 理解 自然 图 片 :， 表 示 语 音 的 声音 信号 和 包含 许多 词 和 标点 的 文档 。 

分 类 问题 可 以 把 这 样 一 个 来 自 高 维 分 布 的 数据 作为 输入 ， 然 后 使 用 一 个 类 别 的 
标签 来 概括 它 一 一 这 个 标签 可 以 是 照片 中 是 什么 物品 ， 一 段 语音 中 说 的 是 哪个 单词 ， 
也 可 以 是 一 段 文档 描述 的 是 哪个 话题 。 这 个 分 类 过 程 于 奔 了 输入 数据 中 的 大 部 分 信 
息 ， 然 后 产生 单个 值 的 输出 〈 或 者 是 关于 单个 输出 值 的 概率 分 布 )。 这 个 分 类 顺 通 常 
可 以 忽略 输入 数据 的 很 多 部 分 。 例 如 ， 当 我 们 识别 一 张 照 片 中 的 一 个 物体 时 ， 我 们 
通常 可 以 忽略 图 片 的 背景 。 

我 们 也 可 以 使 用 概率 模型 完成 许多 其 他 的 任务 。 这 些 任务 通常 相 比 于 分 类 成 本 
更 高 。 其 中 的 一 些 任 务 需 要 产生 多 个 输出 。 大 部 分 任务 需要 对 输入 数据 整个 结构 的 
完整 理解 ， 所 以 并 不 能 售 弃 数据 的 一 部 分 。 这 些 任务 包括 以 下 几 个 : 














。 估 计 密 度 函 数 : 给 定 一 个 输入 z， 机 顺 学 习 系 统 返 回 一 个 对 数据 生成 分 布 的 真 
实 密度 函数 p(z) 的 估计 。 这 只 需要 一 个 输出 ,但 它 需 要 完全 理解 整个 输入 。 即 
使 向 量 中 只 有 一 个 元 素 不 大 正常 ， 系 统 也 会 给 它 赋 予 很 低 的 概率 。 


去 噪 : 给 定 一 个 受 损 的 或 者 观察 有 误 的 输入 数据 过 ， 机 天 学 习 系统 返回 一 个 对 
原始 的 真实 z 的 估计。 举 个 例子 ， 有 时 候 机 噩 学 习 系 统 需要 从 一 张 老 相 片 中 去 
除 灰 人 尘 或 者 抓 痕 。 这 个 系统 会 产生 多 个 输出 值 ( 对 应 着 佑 计 的 干净 样本 z 的 每 
一 个 元 素 )， 并 且 需 要 我 们 有 一 个 对 输入 的 整体 理解 〈 因 为 即使 具有 一 个 损坏 
的 区 域 ， 仍 然 会 显示 最 终 佑 计 被 损坏 )。 








缺失 值 的 填补 : 给 定 z 的 某 些 元 素 作为 观察 值 ， 模 型 被 要 求 返回 一 个 z 一 些 或 
者 全 部 未 观察 值 的 估计 或 者 概率 分 布 。 这 个 模型 返回 的 也 是 多 个 输出 。 由 于 这 
个 模型 需要 恢复 z 的 每 一 个 元 素 ， 所 以 它 必须 理解 整个 输入 。 

然 图 片 指 的 是 能 够 在 正常 的 环境 下 被 照相 机 拍摄 的 图 片 ， 不 同 于 合成 的 图 片 ， 或 者 一 个 网 页 的 截图 等 等。 
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e 采样 : 模型 从 分 布 p(z) 中 抽取 新 的 样本 。 其 应 用 包括 语音 合成 ， 即 产生 一 个 
听 起 来 很 像 人 说 话 的 声音 。 这 个 模型 也 需要 多 个 输出 以 及 对 输入 整体 的 良好 建 
模 。 即 使 样本 只 有 一 个 从 错误 分 布 中 产生 的 元 素 ， 那 么 采样 的 过 程 也 是 错误 的 。 


图 16.1 中 描述 了 一 个 使 用 较 小 的 自然 图 片 的 采样 任务 。 


上 


站 BT 


而 了 








图 16.1: 自然 图 片 的 概率 建 模 。( 上 ) CIFAR-10 数据 集 (Krizhevsky and Hinton，2009) 中 的 
32 x 32 像素 的 样 例 图 片 。( 下 ) 从 这 个 数据 集 上 训练 的 结构 化 概率 模型 中 抽出 的 样本 。 每 一 个 样本 
都 出 现在 与 其 欧 氏 距离 最 近 的 训练 样本 的 格 点 中 。 这 种 比较 使 得 我 们 发 现 这 个 模型 确实 能 够 生成 
新 的 图 片 ， 而 不 是 记 住 训练 样本 。 为 了 方便 展示 ,两 个 集合 的 图 片 都 经 过 了 微调 。 图 片 经 Courville 
et o/. (2011a) 许可 转载 。 
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对 上 千 甚 至 是 上 百 万 随机 变量 的 分 布 建 模 ， 无 论 从 计算 上 还 是 从 统计 意义 上 六 ， 
都 是 一 个 极 具 挑 战 性 的 任务 。 假 设 我 们 只 想 对 二 值 的 随机 变量 建 模 。 这 是 一 个 最 简 
单 的 例子 ， 但 是 我 们 仍然 无 能 为 力 。 对 一 个 只 有 32 x 32 像素 的 彩色 (RGB ) 图 片 
来 说 ， 存 在 23” 种 可 能 的 二 值 图 片 。 这 个 数量 已 经 超过 了 108"" ， 比 宇宙 中 的 原子 
总 数 还 要 多 。 

通常 意义 上 讲 ， 如 果 我 们 和 希望 对 一 个 包含 ”个 离散 变量 并 且 每 个 变量 都 能 取 
个 值 的 z 的 分 布 建 模 ， 那 么 最 简单 的 表示 P(zm) 的 方法 需要 存储 一 个 可 以 查询 的 表 
格 。 这 个 表格 记录 了 每 一 种 可 能 值 的 概率 ， 则 需要 如 个 参数 。 

基于 下 述 几 个 原因 ， 这 种 方式 是 不 可 行 的 : 














。 内 存 : 存储 参数 的 开销 。 除了 极 小 的 和 的 值 ， 用 表格 的 形式 来 表示 这 样 
一 个 分 布 需要 太 多 的 存储 空间 。 


统计 的 高 效 性 : 当 模 型 中 的 参数 个 数 增加 时 ， 使 用 统计 估计 器 估计 这 些 参数 所 
需要 的 训练 数据 数量 也 需要 相应 地 增加 。 因 为 基于 查 表 的 模型 拥有 天 文 数字 级 
别 的 参数 ， 为 了 准确 地 拟 合 ， 相 应 的 训练 集 的 大 小 也 是 相同 级 别 的 。 任 何 这 样 
的 模型 都 会 导致 严重 的 过 拟 合 ， 除 非 我 们 添加 一 些 额外 的 假设 来 联系 表格 中 的 
不 同 元 素 (正如 第 12.4.1 节 中 所 举 的 回 退 或 者 平滑 mgram 模型 )。 








运行 时 间 : 推断 的 开销 。 假设 我 们 需要 完成 这 样 一 个 推断 的 任务 ， 其 中 我 们 需 
要 使 用 联合 分 布 P(x) 来 计算 某 些 其 他 的 分 布 ， 比 如 说 边缘 分 布 P(xi) 或 者 是 
条 件 分 布 P(xa | xi)。 计 算 这 样 的 分 布 需要 对 整个 表格 的 某 些 项 进行 求 和 操作 ， 
因此 这 样 的 操作 的 运行 时 间 和 上 述 高 昂 的 内 存 开销 是 一 个 级 别 的 。 





运行 时 间 : 有 对 样 的 开销 。 类 似 的 ， 假 设 我 们 想 要 从 这 样 的 模型 中 采样 。 最 简单 
的 方法 丈 是 从 均匀 分 布 中 采样 , uv ~ U(0, IJ)， 人 然后 把 表格 中 的 元 素 累 加 起 来 ， 
直到 和 大 于 v， 然 后 返回 最 后 一 个 加 上 的 元 素 。 最 差 情 况 下 ， 这 个 操作 需要 读 
取 整 个 表格 ， 所 以 和 其 他 操作 一 样 ， 它 也 需要 指数 级 别 的 时 间 。 











基于 表格 操作 的 方法 的 主要 问题 是 我 们 显 式 地 对 每 一 种 可 能 的 变量 子 集 所 产生 
的 每 一 种 可 能 类 型 的 相互 作用 建 模 。 在 实际 问题 中 我 们 遇 到 的 概率 分 布 远 比 这 个 简 
单 。 通 常 ， 许 多 变量 只 是 间接 地 相互 作用 。 

例如 ， 我 们 想 要 对 接力 跑步 比赛 中 一 个 队伍 完成 比赛 的 时 间 进 行 建 模 。 假 设 这 
个 队伍 有 三 名 成 员 : Alice，Bob 和 Carol。 在 比赛 开始 时 ，Alice 拿 着 接力 棒 ， 开 始 
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中 第 一 段 距 离 。 在 跑 完 她 的 路 程 以 后 ， 她 把 棒 递 给 了 Bob。 然 后 Bob 开始 跑 ， 再 把 
棒 给 Carol，Carol 跑 最 后 一 棒 。 我 们 可 以 用 连续 变量 来 建 模 他 们 每 个 人 完成 的 时 间 。 
因为 Alice 第 一 个 跑 , 所 以 她 的 完成 时 间 并 不 依赖 于 其 他 的 人 。Bob 的 完成 时 间 依 赖 
于 Alice 的 完成 时 间 ， 因 为 Bob 只 能 在 Alice 跑 完 以 后 才能 开始 跑 。 如 果 Alice 跑 得 
更 快 ,那么 Bob 也 会 完成 得 更 快 。 所 有 其 他 关系 都 可 以 被 类 似 地 推出 。 最 后 ，Carol 
的 完成 时 间 依 赖 于 她 的 两 个 队友 。 如 果 Alice 跑 得 很 慢 ,， 那 么 Bob 也 会 完成 得 更 慢 。 
结果 ，Carol 将 会 更 晚 开 始 跑步 ， 因 此 她 的 完成 时 间 也 更 有 可 能 要 晚 。 然 而 ， 在 给 定 
Bob 完成 时 间 的 情况 下 ，Carol 的 完成 时 间 只 是 间接 地 依赖 于 Alice 的 完成 时 间 。 如 
果 我 们 已 经 知道 了 Bob 的 完成 时 间 ， 知 道 Alice 的 完成 时 间 对 估计 Carol 的 完成 时 
间 并 无 任何 帮助 。 这 意味 着 我 们 可 以 通过 仅仅 两 个 相互 作用 来 建 模 这 个 接力 赛 。 这 
两 个 相互 作用 分 别 是 Alice 的 完成 时 间 对 Bob 的 完成 时 间 的 影响 和 Bob 的 完成 时 间 
对 Carol 的 完成 时 间 的 影响 。 在 这 个 模型 中 ， 我 们 可 以 忽略 第 三 种 间接 的 相互 作用 ， 
即 Alice 的 完成 时 间 对 Carol 的 完成 时 间 的 影响 。 

结构 化 概率 模型 为 随机 变量 之 间 的 直接 作用 提供 了 一 个 正式 的 建 模 框 架 。 这 种 
方式 大 大 减少 了 模型 的 参数 个 数 以 致 于 模型 只 需要 更 少 的 数据 来 进行 有 效 的 估计 。 
这 些 更 小 的 模型 大 大 减 小 了 在 模型 存储 、 模 型 推 新 以 及 从 模型 中 采样 时 的 计算 开销 。 
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结构 化 概率 模型 使 用 图 〈 在 图 论 中 “ 结 点 ”是 通过 “ 边 ” 来 连接 的 ) 来 表示 随机 
变量 之 间 的 相互 作用 。 每 一 个 结 点 代表 一 个 随机 变量 。 每 一 条 边 代 表 一 个 直接 相互 
作用 。 这 些 直接 相互 作用 隐 含 着 其 他 的 间接 相互 作用 ， 但 是 只 有 直接 的 相互 作用 会 
被 显 式 地 建 模 。 

使 用 图 来 描述 概率 分 布 中 相互 作用 的 方法 不 止 一 种 。 在 下 文中 我 们 会 介绍 几 种 
最 为 流行 和 有 用 的 方法 。 图 模型 可 以 被 大 致 分 为 两 类 : 基于 有 向 无 环 图 的 模型 和 基 
于 无 向 图 的 模型 。 
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16.2.1 ”有 向 模型 


有 向 图 模型 ( directed graphical model ) 是 一 种 结构 化 概率 模型 ， 也 被 称 为 信 
念 网 络 (belief network ) 或 者 贝 叶 斯 网 络 (Bayesian network ) (Pearl, 1985)。 


之 所 以 命名 为 有 向 图 模型 是 因为 所 有 的 边 都 是 有 方向 的 ， 即 从 一 个 结 点 指向 另 
一 个 结 点 。 这 个 方向 可 以 通过 画 一 个 箭头 来 表示 。 箭 头 所 指 的 方向 表示 了 这 个 随机 
变量 的 概率 分 布 是 由 其 他 变量 的 概率 分 布 所 定义 的 。 画 一 个 从 结 点 a 到 结 点 b 的 箭 
头 表 示 了 我 们 用 一 个 条 件 分 布 来 定义 b， 而 a 是 作为 这 个 条 件 分 布 符号 右边 的 一 个 
变量 。 换 名 话说 ，b 的 概率 分 布依 赖 于 a 的 取 值 。 

我 们 继续 第 16.1 节 所 讲 的 接力 赛 的 例子 , 我 们 假设 Alice 的 完成 时 间 为 tt，Bob 
的 完成 时 间 为 妇 ，Carol 的 完成 时 间 为 ta。 就 像 我 们 之 前 看 到 的 一 样 ，ta 的 估计 是 
依赖 于 to 的 ， ts 的 估计 是 直接 依赖 于 tl 的 ， 但 是 仅仅 间接 地 依赖 于 to。 我 们 用 一 
个 有 向 图 模型 来 建 模 这 种 关系 ， 如 图 16.2 所 示 。 





Alice Bob Carol 


基 


图 16.2: 描述 接力 赛 例子 的 有 向 图 模型 。Alice 的 完成 时 间 to 影响 了 Bob 的 完成 时 间 tl ， 因 为 
Bob 只 能 在 Alice 完成 比赛 后 才 开 始 。 类 似 的 ，Carol 也 只 会 在 Bob 完成 之 后 才 开 始 ， 所 以 Bob 
的 完成 时 间 妈 直接 影响 了 Carol 的 完成 时 间 ta。 











正式 地 说 ,变量 x 的 有 向 概率 模型 是 通过 有 癌 无 环 网 9 (每 个 结 点 都 是 模型 中 的 
随机 变量 ) 和 一 系列 局 部 条 件 概 率 分 布 (local conditional probability distribution ) 
px | Pac(xi)) 来 定义 的 ， 其 中 Pac(x;) 表示 结 点 xi; 的 所 有 父 结 点 。x 的 概率 分 布 
可 以 表示 为 





po = ] [es | Poc(s) (16.1) 


2 


在 之 前 所 述 的 接力 赛 的 例子 中 ， 参 考 图 16.2 ， 这 意味 着 概率 分 布 可 以 被 表示 为 


plto,tata) =2Zlto)p(ta |to)plta | t). (16.2) 








“2 当 我 们 希望 “强调 ”从 网 络 中 计算 出 的 值 的 “推断 ”本 质 ， 即 强调 这 些 值 代表 的 是 置信 程度 大 小 而 不 是 事件 的 频 
率 时 ，Judea Pearl 建议 使 用 “ 贝 叶 斯 网 络 ”这 个 术语 。 
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这 是 我 们 看 到 的 第 一 个 结构 化 概率 模型 的 实际 例子 。 我 们 能 够 检查 这 样 建 模 的 
计算 开销 ， 为 了 验证 相 比 于 非 结 构 化 建 模 ， 结 构 化 建 模 为 什么 有 那么 多 的 优势 。 

假设 我 们 采用 从 第 0 分 钟 到 第 10 分 钟 每 6 秒 一 块 的 方式 离散 化 地 表示 时 间 。 这 
使 得 to, ti 和 ta 都 是 一 个 有 100 个 取 值 可 能 的 离散 变量 。 如 果 我 们 尝试 着 用 一 个 表 
来 表示 plto,ti,tz)， 那 么 我 们 需要 存储 999, 999 个 值 (100 个 to 的 可 能 取 值 x 100 
个 习 的 可 能 取 值 x 100 个 ta 的 可 能 取 值 减 去 1， 由 于 存在 所 有 的 概率 之 和 为 1 的 
限制 ， 所 以 其 中 有 1 个 值 的 存储 是 多 余 的 )。 反 之 ， 如 果 我 们 用 一 个 表 来 记录 每 一 种 
条 件 概率 分 布 ， 那 么 表 中 记录 to 的 分 布 需要 存储 99 个 值 ， 给 定 to 情况 下 ta 的 分 
布 需要 存储 9900 个 值 ， 给 定 fi 情况 下 ta 的 分 布 也 需要 存储 9900 个 值 。 加 起 来 总 
共 需 要 存储 19, 899 个 值 。 这 意味 着 使 用 有 向 图 模型 将 参数 的 个 数 减 少 了 超过 50 倍 ! 

通常 意义 上 说 ， 对 每 个 变量 都 能 取 K 个 值 的 m” 个 变量 建 模 ， 基 于 建 表 的 方法 需 
要 的 复杂 度 是 O(fi")， 就 像 我 们 之 前 观察 到 的 一 样 。 现 在 假设 我 们 用 一 个 有 向 图 模 
型 来 对 这 些 变量 建 模 。 如 果 台 代表 图 模型 的 单个 条 件 概率 分 布 中 最 大 的 变量 数目 
(在 条 件 符号 的 左右 缘 可 )， 那 么 对 这 个 有 向 模型 建 表 的 复杂 度 大 致 为 O(kim)。 只 要 
我 们 在 设计 模型 时 使 其 满足 m < 贸 风 ,那么 复杂 度 就 会 被 大 大 地 减 小 。 

换 一 名 话说， 只 要 图 中 的 每 个 变量 都 只 有 少量 的 父 结 点 ， 那 么 这 个 分 布 就 可 以 
用 较 少 的 参数 来 表示 。 图 结构 上 的 一 些 限 制 条 件 ， 比 如 说 要 求 这 个 图 为 一 棵 树 ， 也 
可 以 保证 一 些 操作 ( 例如 求 一 小 部 分 变量 的 边缘 或 者 条 件 分 布 ) 更 加 地 高 效 。 

决定 哪些 信息 需要 被 包含 在 图 中 而 哪些 不 需要 是 很 重要 的 。 如 果 变 量 之 间 可 以 
被 假设 为 是 条 件 独立 的 ， 那 么 这 个 图 可 以 包含 这 种 简化 假设 。 当 然 也 存在 其 他 类 型 
的 简化 图 模型 的 假设 。 例 如 ， 我 们 可 以 假设 无 论 Alice 的 表现 如 何 ，Bob 总 是 跑 得 
一 样 快 (实际 上 ，Alice 的 表现 很 大 概率 会 影响 Bob 的 表现 ， 这 取决 于 Bob 的 性 格 ， 
如 果 在 之 前 的 比赛 中 Alice 跑 得 特别 快 ， 这 有 可 能 鼓励 Bob 更 加 努力 并 取得 更 好 的 
成 绩 ， 当 然 这 也 有 可 能 使 得 Bob 过 分 自信 或 者 变 得 懒惰 )。 那 么 Alice 对 Bob 的 唯 
一 影响 就 是 在 计算 Bob 的 完成 时 间 时 需要 加 上 Alice 的 时 间 。 这 个 假设 使 得 我 们 所 
需要 的 参数 量 从 O(2) 降 到 了 O( 和 )。 然 而 ， 值 得 注意 的 是 在 这 个 假设 下 to 和 ta 仍 
然 是 直接 相关 的 ,因为 表示 的 是 Bob 完成 时 的 时 间 ， 并 不 是 他 跑 的 总 时 间 。 这 也 
意味 着 图 中 会 有 一 个 从 to 指向 ta 的 箭头 。“Bob 的 个 人 跑步 时 间 相 对 于 其 他 因素 是 
独立 的 ”这 个 假设 无 法 在 tt, fi，ta 的 图 中 被 表示 出 来 。 反 之 ,我 们 只 能 将 这 个 关系 
表示 在 条 件 分 布 的 定义 中 。 这 个 条 件 分 布 不 再 是 一 个 大 小 为 下 x 有 一 1 的 分 别 对 应 着 
to，a 的 表格 ， 而 是 一 个 包含 了 有 -- 工 个 参数 的 略微 复杂 的 公式 。 有 向 图 模型 的 语法 
并 不 能 对 我 们 如 何 定 义 条 件 分 布 作 出 任何 限制 。 它 只 定义 了 哪些 变量 可 以 作为 其 中 
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的 参数 。 


16.2.2 “无 向 模型 


有 向 图 模型 为 我 们 提供 了 一 种 描述 结构 化 概率 模型 的 语言 。 而 另 一 种 常见 的 语 
言 则 是 无 向 模型 (undirected Model )， 也 被 称 为 马尔 可 夫 随 机 场 ( Markov random 
field, MREF ) 或 者 是 马尔 可 夫 网 络 ( Markov network ) (Kindermann, 1980)。 就 像 它 
们 的 名 字 所 说 的 那样 ， 无 向 模 型 中 所 有 的 边 都 是 没有 方向 的 。 

当 存在 很 明显 的 理由 画 出 每 一 个 指向 特定 方向 的 箭头 时 ， 有 向 模型 显然 最 适用 。 
有 向 模 型 中 ， 经 向 存在 我 们 理解 的 具有 因果 关系 以 及 因果 关系 有 了 明确 方向 的 情况 。 
接力 赛 的 例子 就 是 一 个 这 样 的 情况 。 之 前 运动 员 的 表现 会 影响 后 面 运动 员 的 完成 时 
间 ， 而 后 面 运动 员 却 不 会 影响 前 面 运动 员 的 完成 时 间 。 

然而 并 不 是 所 有 情况 的 相互 作用 都 有 一 个 明确 的 方向 关系 。 当 相互 的 作用 并 没 
有 本 质 性 的 指向 ， 或 者 是 明确 的 双向 相互 作用 时 ， 使 用 无 向 模型 更 加 合适 。 

作为 一 个 这 种 情况 的 例子 ， 假 设 我 们 和 希望 对 三 个 二 值 随机 变量 建 模 : 你 是 否 生 
病 ， 你 的 同事 是 否 生病 以 及 你 的 室友 是 否 生 病 。 就 像 在 接力 赛 的 例子 中 所 作 的 简化 
假设 一 样 ， 我 们 可 以 在 这 里 做 一 些 关于 相互 作用 的 简化 假设 。 假 设 你 的 室友 和 同事 
并 不 认识 ， 所 以 他 们 不 太 可 能 直接 相互 传染 一 些 疾 病 ， 比 如 说 感冒 。 这 个 事件 太 过 
罕见 ， 所 以 我 们 不 对 此 事件 建 模 。 然 而 ， 很 有 可 能 其 中 之 一 将 感冒 传染 给 你 ， 然 后 
通过 你 再 传染 给 了 另 一 个 人 。 我 们 通过 对 你 的 同事 传染 给 你 以 及 你 传染 给 你 的 室友 
建 模 来 对 这 种 间接 的 从 你 的 同事 到 你 的 室友 的 感冒 传染 建 模 。 

在 这 种 情况 下 ， 你 传染 给 你 的 室友 和 你 的 室友 传染 给 你 都 是 非常 容易 的 ， 所 以 
模型 不 存在 一 个 明确 的 单 向 箭头 。 这 启发 我 们 使 用 无 向 模型 。 其 中 随机 变量 对 应 着 
图 中 的 相互 作用 的 结 点 。 与 有 向 模型 相同 的 是 ， 如 果 在 无 回 模 型 中 的 两 个 结 点 通过 
一 条 边 相 连接 ， 那 么 对 应 这 些 结 点 的 随机 变量 相互 之 间 是 直接 作用 的 。 不 同 于 有 向 
模型 ， 在 无 向 模型 中 的 边 是 没有 方向 的 ， 并 不 与 一 个 条 件 分 布 相关 联 。 

我 们 把 对 应 你 健康 状况 的 随机 变量 记 作 hy ， 对 应 你 的 室友 健康 状况 的 随机 变量 
记 作 hp， 你 的 同事 健康 的 变量 记 作 he。 图 16.3 表示 这 种 关系 。 

正式 地 说 ， 一 个 无 癌 模 型 是 一 个 定义 在 无 向 模型 9 上 的 结构 化 概率 模型 。 对 于 
图 中 的 每 一 个 团 3 C， 一 个 因子 (factor ) %(C)( 也 称 为 团 势能 (clique potential ) )， 


?图 的 一 个 团 是 图 中 结 点 的 一 个 子 集 ， 并 且 其 中 的 点 是 全 连接 的 
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图 16.3: 表示 你 室友 健康 状况 的 pr 、 你 健康 状况 的 py 和 你 同事 健康 状况 的 he 之 间 如 何 相互 影 响 
的 一 个 无 向 图 。 你 和 你 的 室友 可 能 会 相互 传染 感冒 ， 你 和 你 的 同事 之 间 也 是 如 此 ， 但 是 假设 你 室 
友和 同事 之 间 相 互 不 认识 ， 他 们 只 能 通过 你 来 间接 传染 。 




































































衡量 了 团 中 变量 每 一 种 可 能 的 联合 状态 所 对 应 的 密切 程度 。 这 些 因 子 都 被 限制 为 是 
非 负 的 。 We 了 未 归 一 化 概率 函数 ( unnormalized probability function ): 


= ]] ww). (16.3) 
CEG 
只 要 所 有 团 中 的 结 点 数 都 不 大 ， 那 么 我 们 就 能 够 高 效 地 处 理 这 些 未 归 一 化 概率 





函数 。 它 包含 了 这 样 的 思想 ， 密 切 度 越 高 的 状态 有 越 大 的 概率 。 然 而 ,不 像 贝 叶 斯 网 
络 ， 几 乎 不 存在 团 定义 的 结构 ， 所 以 不 能 保证 把 它们 乘 在 一 起 能 够 得 到 一 个 有 效 的 
概率 分 布 。 图 16.4 展示 了 一 个 从 无 向 模型 中 读 取 分 解 信 息 的 例子 。 


图 16.4: 这 个 图 说 明 通 过 选择 适当 的 %， 函数 plabcdef 可 以 写作 
去 ab(a， b)bb,c(b,c)daa(a， d)db， e(b,e)be， f(e， 全 。 








在 你 、 你 的 室友 和 同事 之 间 感 冒 传染 的 例子 中 包含 了 两 个 团 。 一 个 团 包 含 了 hy 

和 he。 这 个 团 的 因子 可 以 通过 一 个 表 来 定义 ， 可 能 取 到 下 面 的 值 : 
。 1 代表 了 健康 的 状态 ， 相 对 的 状态 为 0 则 表示 不 好 的 健康 状态 〈( 即 感染 
。 你 们 两 个 通常 都 是 健康 的 ， 所 以 对 应 的 状态 拥有 最 高 的 密切 程度 。 两 个 人 
Re 因为 这 是 一 个 很 罕见 的 状态 。 两 个 人 都 
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生病 的 状态 〈 通过 一 个 人 来 传染 给 了 另 一 个 人 ) 有 一 个 稍 高 的 密切 程度 ， 尽 管 仍然 
不 及 两 个 人 都 健康 的 密切 程度 。 
为 了 完整 地 定义 这 个 模型 ， 我 们 需要 对 包含 hy 和 hv 的 团 定 义 类 似 的 因子 。 





16.2.3 “” 配 分 函数 


尽管 这 个 未 归 一 化 概率 函数 处 处 不 为 零 ， 我 们 仍然 无 法 保证 它 的 概率 之 和 或 者 
积分 为 1。 为 了 得 到 一 个 有 效 的 概率 分 布 ,我 们 需要 使 用 对 应 的 归 一 化 的 概率 分 布 “: 





po) = 了 Pt) (6 
其 中 ，2 是 使 得 所 有 的 概率 之 和 或 者 积分 为 1 的 常数 ， 并 且 满 足 : 
六 二 |/ 和 人 (16.5) 


当 函 数 % 固定 时 ， 我 们 可 以 把 2 当成 是 一 个 常数 。 值 得 注意 的 是 如 果 郑 数 少帝 有 
参数 时 , 那么 2 是 这 些 参数 的 一 个 函数 。 在 相关 文献 中 为 了 节省 空间 忽略 控制 2 的 
变量 而 直接 写 2 是 一 个 常用 的 方式 。 归 一 化 常数 2 被 称 作 是 配 分 困 数 ， 这 是 一 个 从 
统计 物理 学 中 借鉴 的 术语 。 

由 于 2 通常 是 由 对 所 有 可 能 的 x 状态 的 联合 分 布 空间 求 和 或 者 求 积分 得 到 的 ， 
它 通 常 是 很 难 计算 的 。 为 了 获得 一 个 无 向 模型 的 归 一 化 概率 分 布 ， 模 型 的 结构 和 天 
数 Y 的 定义 通常 需要 设计 为 有 助 于 高 效 地 计算 Z。 在 深度 学 习 中 ，2 通常 是 难以 处 
理 的 。 由 于 2 难以 精确 地 计算 出 ， 我 们 只 能 使 用 一 些 近似 的 方法 。 这 样 的 近似 方法 
是 第 十 八 章 的 主要 内 容 。 

在 设计 无 向 模型 时 ， 我 们 必须 牢记 在 心 的 一 个 要 点 是 设 定 一 些 使 得 2 不 存在 
的 因子 也 是 有 可 能 的 。 当 模型 中 的 一 些 变量 是 连续 的 ， 且 三 在 其 定义 域 上 的 积分 发 
散 时 这 种 情况 就 会 发 生 。 例 如 ， 当 我 们 需要 对 一 个 单独 的 标量 变量 xe 了 肥 建 模 ， 并 
且 单 个 团 势 能 定义 为 %z) = z2 时 。 在 这 种 情况 下 ， 























2 = /em (16.6) 


由 于 这 个 积分 是 发 散 的 ， 所 以 不 存在 一 个 对 应 着 这 个 势能 函数 4%(z) 的 概率 分 布 。 有 
时 候 少 函数 某 些 参数 的 选择 可 以 决定 相应 的 概率 分 布 是 否 能 够 被 定义 。 例 如 ， 对 少 
“一 个 通过 归 一 化 团 势 能 乘积 定义 的 分 布 也 被 称 作 是 吉 布 斯 分 布 (Gibps distripution ) 
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函数 %(z; 8) = exp(- pz2) 来 说 ， 参 数 6 决定 了 归 一 化 常数 2 是 否 存在 。 正 的 8 使 
得 % 函数 是 一 个 关于 x 的 高 斯 分 布 ， 但 是 非 正 的 参数 6 则 使 得 和 不 可 能 被 归 一 化 。 

有 问 建 模 和 无 向 建 模 之 间 一 个 重要 的 区 别 就 是 有 回 模 型 是 通过 从 起 始点 的 概率 
分 布 直 接 定义 的 ， 反 之 无 向 模型 的 定义 显得 更 加 宽松 ， 通 过 b 函数 转化 为 概率 分 布 
而 定义 。 这 改变 了 我 们 处 理 这 些 建 模 问题 的 直觉 。 当 我 们 处 理 无 向 模型 时 需要 牢记 
一 点 ， 每 一 个 变量 的 定义 域 对 于 一 系列 给 定 的 风 函数 所 对 应 的 概率 分 布 有 着 重要 的 
影响 。 举 个 例子 ,我 们 考虑 一 个 m” 维 向 量 的 随机 变量 x 以 及 一 个 由 偏 置 回 量 参数 
化 的 无 向 模型 。 假 设 x 的 每 一 个 元 素 对 应 着 一 个 团 ， 并 且 满 足 Wi5(xi) = exp(bixi)。 
在 这 种 情况 下 概率 分 布 是 怎样 的 呢 ? 答案 是 我 们 无 法 确定 ， 因 为 我 们 并 没有 指定 x 
的 定义 域 。 如 果 x 满足 x e 了 "， 那 么 有 关 归 一 化 常数 2 的 积分 是 发 散 的 ， 这 导 
致 了 对 应 的 概率 分 布 是 不 存在 的 。 如 果 x e {0,1}j"， 那 么 p(x) 可 以 被 分 解 成 个 
独立 的 分 布 ， 并 且 满 足 p(x; = 1) = sigmoid(b%)。 如 果 x 的 定义 域 是 基本 单位 向 量 
({ 人 ,0.0],[0, 1 0. [0,0, .六 的 集合 ,那么 p(x) = softmax(b)， 因 此 
对 于 了 和 11， 一 个 较 大 的 访 的 值 会 降低 所 有 p(xj = 了 的 概率 。 通 常情 况 下 ， 通 过 仔 
细 选 择 变 量 的 定义 域 ， 能 够 从 一 个 相对 简单 的 % 函数 的 集合 可 以 获得 一 个 相对 复杂 
的 表达 。 我 们 会 在 第 20.6 节 中 讨论 这 个 想法 的 实际 应 用 。 











16.2.4 ”基于 能 量 的 模型 


无 向 模型 中 许多 有 趣 的 理论 结果 都 依赖 于 Vz，P(z) > 0 这 个 假设 。 使 这 个 条 件 
满足 的 一 种 简单 方式 是 使 用 基于 能 量 的 模型 ( Energy-based model EBM )， 其 中 





ZX) 一 exp( 一 妃 (x))， (16.7) 


五 (x) 被 称 作 是 能 量 函 数 ( energy function )。 对 所 有 的 z，exp(z) 都 是 正 的 ， 这 保证 
了 没有 一 个 能 量 数 会 使 得 某 一 个 状态 x 的 概率 为 0。 我 们 可 以 完全 自由 地 选择 那 
些 能 够 简化 学 习 过 程 的 能 量 函 数 。 如 果 我 们 直接 学 习 各 个 团 势 能 ， 我 们 需要 利用 约 
束 优 化 方法 来 任意 地 指定 一 些 特定 的 最 小 概率 值 。 学 习 能 量 函 数 的 过 程 中 ,我们 可 
以 采用 无 约束 的 优化 方法 5。 基 于 能 量 的 模型 中 的 概率 可 以 无 限 趋 近 于 0 但 是 永远 达 
不 到 0。 

服从 式 (16.7) 形 式 的 任意 分 布 都 是 玻 尔 兹 曼 分 布 (Boltzmann distribution ) 
的 一 个 实例 。 正 是 基于 这 个 原因 ， 我 们 把 许多 基于 能 量 的 模型 称 为 玻 尔 兹 曼 机 
5 对 于 某 些 模型 ， 我 们 可 以 仍然 使 用 约束 优化 方法 来 确保 2 存在 。 
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(Boltzmann Machine ) (Fahlman et ol.，1983; Ackley et al.，1985; Hinton et aL.， 
1984a; Hinton and Sejnowski, 1986)。 关 于 什么 时 候 称 之 为 基于 能 量 的 模型 ， 什 么 时 
候 称 之 为 玻 尔 兹 曼 机 不 存在 一 个 公认 的 判别 标准 。 一 开始 玻 尔 效 曼 机 这 个 术语 是 用 
来 描述 一 个 只 有 二 值 变量 的 模型 ， 但 是 如 今 许多 模型 ， 比 如 均值 - 协 方差 RBM， 也 
涉及 到 了 实 值 变 量 。 虽 然 玻 尔 效 曼 机 最 初 的 定义 既 可 以 包含 潜 变 量 也 可 以 不 包含 淤 
变量 ， 但 是 时 至 今日 玻 尔 效 曼 机 这 个 术语 通常 用 于 指 拥有 淤 变量 的 模型 ， 而 没有 淤 
变量 的 玻 尔 效 曼 机 则 经 常 被 称 为 马尔 可 夫 随 机 场 或 对 数 线性 模型 。 

无 向 模型 中 的 团 对 应 于 未 归 一 化 概率 郴 数 中 的 因子 。 通 过 exp(a 二 中 = 
exp(a) exp()， 我 们 发 现 无 向 模型 中 的 不 同 团 对 应 于 能 量 函 数 的 不 同 项 。 换 名 话说 ， 
基于 能 量 的 模型 上 只 是 一 种 特殊 的 马尔 可 夫 网 络 : 求 震 使 能 量 本 数 中 的 每 个 项 对 应 
于 不 同 团 的 一 个 因子 。 关 于 如 何 从 无 同 模 型 结构 中 获得 能 量 柚 数 形式 的 示例 可 以 人参 
考 图 16.5 。 人 们 可 以 将 能 量 函 数 中 带 有 多 个 项 的 基于 能 量 的 模型 视 作 是 专家 之 积 
(product of expert ) (Hinton, 1999)。 能 量 数 中 的 每 一 项 对 应 的 是 概率 分 布 中 的 
一 个 因子 。 能 量 函 数 中 的 每 一 项 都 可 以 看 作 决 定 一 个 特定 的 软 约束 是 否 能 够 满足 的 
“专家 ”。 每 个 专家 只 执行 一 个 约束 ， 而 这 个 约束 仅仅 涉及 随机 变量 的 一 个 低 维 投影 ， 
但 是 当 其 结合 概率 的 乘法 时 ， 专 家 们 一 同 构造 了 复杂 的 高 维 约束 。 


贺 16.5: 这 个 图 说 明 通 过 为 每 个 团 选择 适当 的 量 函 数 五 (ab,c,dq,e, 介 可 以 写作 Pab(a,b) 千 


4 能 
Pbc(b,c) 二 克 aa(a， d) 卡 已 be(b,e) 中 匹 ef(e， 全 。 值得 注 的 是 ， 我 们 令 峭 等 于 对 应 负 能 量 的 指数 ， 
可 以 获得 图 16.4 中 的 g 琢 数 ， 比 如 ， 各 b(a,b) = exp( 一 已 (ab))。 





















































基于 能 量 的 模型 定义 的 一 部 分 无 法 用 机 央 学 习 观 点 来 解释 : 即 式 (16.7) 中 的 “-” 
符号 。 这 个 “ ”符号 可 以 被 包含 在 态 的 定义 之 中 。 对 于 很 多 已 困 数 的 选择 来 说 ， 学 
习 算 法 可 以 自由 地 决定 能 量 的 符号 。 这 个 负 号 的 存在 主要 是 为 了 保持 机 需 学 习 文 献 
和 物理 学 文献 之 间 的 兼容 性 。 概 率 建 模 的 许多 研究 最 初 都 是 由 统计 物理 学 家 做 出 的 ， 
其 中 王 是 指 实际 的 、 物 理 概念 的 能 量 ， 没 有 任何 符号 。 诸 如 “能 量 ” 和 “ 配 分 函数 ” 
这 类 术语 仍然 与 这 些 技 术 相 关联 ， 尽 管 它们 的 数学 适用 性 比 在 物理 中 更 宽 。 一 些 机 
器 学 习 研 究 者 〈 例 如 ，Smolensky (1986) 将 负 能 量 称 为 harmony ) 发 出 了 不 同 的 声 
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音 ， 但 这 些 都 不 是 标准 惯例 。 

许多 对 概率 模型 进行 操作 的 算法 不 需要 计算 panoas(m， 而 只 需要 计算 
log aodel(z)。 对 于 具有 洪 变量 疡 的 基于 能 量 的 模型 ， 这 些 算法 有 时 会 将 该 量 的 负数 
称 为 自由 能 ( free energy ): 


大 (四 = 一 log 》 exp( 一 已 (cz 门 )， (16.8) 


在 本 书 中， 我 们 更 倾向 于 更 为 通用 的 基于 log 记 oaul(z) 的 定义 。 


16.2.5 “分 离 和 d- 分 离 


图 模型 中 的 边 告 诉 我 们 哪些 变量 直接 相互 作用 。 我 们 经 常 需要 知道 哪些 变量 问 
接 相互 作用 。 某 些 间接 相互 作用 可 以 通过 观察 其 他 变量 来 启用 或 禁用 。 更 正式 地 , 我 
们 想 知道 在 给 定 其 他 变量 子 集 的 值 时 ， 哪 些 变量 子 集 彼此 条 件 独立 。 

在 无 向 模型 中 ， 识 别 图 中 的 条 件 独立 性 是 非常 简单 的 。 在 这 种 情况 下 ， 图 中 隐 
含 的 条 件 独立 性 称 为 分 离 (separation )。 如 果 图 结构 显示 给 定 变量 集 8 的 情况 下 变 
量 集 A 与 变量 集 了 无 关 ， 那 么 我 们 声称 给 定 变量 集 8 时 ， 变 量 集 A 与 另 一 组 变量 
集 马 是 分 离 的 。 如 果 连 接 两 个 变量 a 和 的 连接 路 径 仅 涉及 未 观察 变量 ， 那 么 这 些 
变量 不 是 分 离 的 。 如 果 它 们 之 间 没有 路 径 ， 或 者 所 有 路 径 都 包含 可 观测 的 变量 , 那 
么 它们 是 分 离 的 。 我 们 认为 仅 涉及 未 观察 到 的 变量 的 路 径 是 “活跃 " 的， 而 包括 可 观 
察 变量 的 路 径 称 为 “ 非 活跃" 的 。 

当 我 们 画图 时 ， 我 们 可 以 通过 加 阴影 来 表示 观察 到 的 变量 。 图 16.6 用 于 描述 当 
以 这 种 方式 绘图 时 无 向 模型 中 的 活跃 和 非 活跃 路 径 的 样子 。 图 16.7 描 述 了 一 个 从 无 
向 模型 中 读 取 分 离 信息 的 例子 。 


(a) (D) 


图 16.6: (o) 随机 变量 a 和 随机 变量 b 之 间 穿 过 s 的 路 径 是 活跃 的 ， 因 为 s 是 观察 不 到 的 。 这 意 
味 着 a，b 之 间 不 是 分 离 的 。(2 图 中 s 用 阴影 填充 ， 表 示 它 是 可 观察 的 。 因 为 a 和 之 间 的 唯 
路 径 通过 s， 并 且 这 条 路 径 是 不 活跃 的 ， 我 们 可 以 得 出 结论 ， 在 给 定 s 的 条 件 下 a 和 b 是 分 离 的 。 
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图 16.7: 从 一 个 无 向 图 中 读 取 分 离 性 质 的 一 个 例子 。 这 里 b 用 阴影 填充 ,表示 它 是 可 观察 的 。 由 于 
b 挡住 了 从 a 到 c 的 唯一 路 径 ， 我 们 说 在 给 定 b 的 情况 下 a 和 e 是 相互 分 离 的 。 观 察 值 b 同样 
挡住 了 从 a 到 d 的 一 条 路 径 ， 但 是 它们 之 间 有 另 一 条 活跃 路 径 。 因 此 给 定 b 的 情况 下 a 和 d 不 
是 分 离 的 。 

















类 似 的 概念 适用 于 有 向 模型 ， 只 是 在 有 向 模型 中 ， 这 些 概 念 被 称 为 d- 分 离 〈d- 
separation ).“d7” 代表 “依赖 ”的 意思 。 有 癌 图 中 d- 分 离 的 定义 与 无 向 模型 中 分 离 的 
定义 相同 : 如 果 图 结构 显示 给 定 变 量 集 $ 时 ,变量 集 A 与 变量 集 孔 无 关 , 那么 我 们 
认为 给 定 变 量 集 $ 时 ， 变 量 集 A d- 分 离 于 变量 集 驰 。 

与 无 向 模型 一 样 ， 我 们 可 以 通过 查看 图 中 存在 的 活跃 路 径 来 检查 图 中 隐 含 的 独 
立 性 。 如 前 所 述 ， 如 果 两 个 变量 之 间 存 在 活跃 路 径 ， 则 两 个 变量 是 依赖 的 ， 如 果 没 
有 活跃 路 径 ， 则 为 d- 分 离 。 在 有 回 网 络 中 ， 确 定 路 径 是 和 否 活跃 有 点 复杂 。 关 于 在 有 向 
模型 中 识别 活跃 路 径 的 方法 可 以 参考 图 16.8 。 图 16.9 是 从 一 个 图 中 读 取 一 些 属 性 的 
例子 。 

















其 重要 的 是 要 记 住 分 离 和 d- 分 离 只 能 告诉 我 们 图 中 隐 人 钨 的 条 件 独立 性 。 图 并 
不 需要 表示 所 有 存在 的 独立 性 。 进 一 步 的 , 使 用 完全 图 ( 具有 所 有 可 能 的 边 的 图 ) 来 
表示 任何 分 布 总 是 合法 的 。 事 实 上， 一 些 分 布 包 含 不 可 能 用 现 有 图 形 符号 表示 的 独 
立 性 。 特定 环境 下 的 独立 ( context-specific independences ) 指 的 是 取决 于 网 络 中 一 
些 变量 值 的 独立 性 。 例 如 ， 考 虑 三 个 二 值 变 量 的 模型 : a，b 和 c。 假 设 当 a 是 0 时 ， 
b 和 e 是 独立 的 ,但 是 当 a 是 1 时 ，b 确定 地 等 于 c。 当 a = 1 时 图 模型 需要 连接 b 
和 e 的 边 。 但 是 图 不 能 说 明 当 a = 0 时 bb 和 *e 不 是 独立 的 。 


一 般 来 说 ， 当 独立 性 不 存在 时 ， 图 不 会 显示 独立 性 。 然 而 ,图 可 能 无 法 编码 独立 
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图 16.8: 两 个 随机 变量 a，b 之 间 存 在 的 长 度 为 2 的 所 有 种 类 的 活跃 路 径 。(o) 箭头 方向 从 a 指向 
b 的 任何 路 径 ， 反 过 来 也 一 样 。 如 果 s 可 以 被 观察 到 ， 这 种 路 径 就 是 阻塞 的 。 在 接力 赛 的 例子 中 ， 
我 们 已 经 看 到 过 这 种 类 型 的 路 径 。(b) 变量 a 和 b 通过 共 因 s 相连 。 举 个 例子 ， 假 设 s 是 一 个 表 
示 是 否 存在 飓风 的 变量 ，a 和 b 表示 两 个 相 邻 气 象 监控 区 域 的 风速 。 如 果 我 们 在 a 处 观察 到 很 高 
的 风速 ,我们 可 以 期 望 在 处 也 观察 到 高 速 的 风 。 如 果 观 察 到 s， 那 么 这 条 路 径 就 被 阻 蹇 了。 如 果 
我 们 已 经 知道 存在 朵 风 ， 那 么 无 论 a 处 观察 到 什么 ， 我 们 都 能 期 望 b 处 有 较 高 的 风速 。 在 a 处 观 
察 到 一 个 低 于 预期 的 风速 (对 刚 风 而 言 ) 并 不 会 改变 我 们 对 b 处 风速 的 期 望 (已 知 有 限 风 的 情况 
下 )。 然 而 ， 如 果 s 不 被 观测 到 ,那么 a 和 b 是 依赖 的 ， 即 路 径 是 活跃 的 。(c) 变量 a 和 b 都 是 
s 的 父 节 点 。 这 称 为 V- 结 构 (V-structure ) 或 者 碰撞 情况 (the collider case )。 根 据 相 消解 释 作 
用 (explaining away effect )，V- 结 构 导 致 a 和 b 是 相关 的 。 在 这 种 情况 下 ， 当 s 被 观测 到 时 路 径 
是 活 牙 的 。 举 个 例子 ， 假 设 s 是 一 个 表示 你 的 同事 不 在 工作 的 变量 。 变 量 a 表示 她 生病 了 ， 而 变 
量 b 表示 她 在 休假 。 如 果 你 观察 到 了 她 不 在 工作 ， 你 可 以 假设 她 很 有 可 能 是 生病 了 或 者 是 在 度假 ， 
但 是 这 两 件 事 同时 发 生 是 不 太 可 能 的 。 如 果 你 发 现 她 在 休假 ， 那 么 这 个 事实 足够 解释 她 的 缺席 了 。 
你 可 以 推断 她 很 可 能 没有 生病 。(@) 即使 s 的 任意 后 代 都 被 观察 到 ， 相 消解 释 作 用 也 会 起 作用 。 举 
个 例子 ， 假 设 c 是 一 个 表示 你 是 否 收 到 你 同事 的 报告 的 一 个 变量 。 如 果 你 注意 到 你 还 没有 收 到 这 
个 报告 ， 这 会 增加 你 估计 的 她 今天 不 在 工作 的 概率 ， 这 反 过 来 又 会 增加 她 今天 生病 或 者 度假 的 概 
率 。 阻 塞 V- 结 构 中 路 径 的 唯一 方法 就 是 共享 子 节点 的 后 代 一 个 都 观察 不 到 。 
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图 16.9: 从 这 张 图 中 ， 我 们 可 以 发 现 一 些 d- 分 离 的 性 质 。 这 包括 了 : 
给 定 空 集 的 情况 下 ，a 和 b 是 d- 分 离 的 。 
给 定 c 的 情况 下 ，a 和 e 是 d- 分 离 的 。 
。 给 定 c 的 情况 下 ，d 和 。 是 d- 分 离 的 。 
我 们 还 可 以 发 现 当 我 们 观察 到 一 些 变量 时 ， 一 些 变量 不 再 是 4- 分 离 的 ; 
。 给 定 c 的 情况 下 ，a 和 b 不 是 d- 分 离 的 。 
。 给 定 d 的 情况 下 ，a 和 b 不 是 d- 分 离 的 。 





















































16.2.6 ”在 有 向 模型 和 无 向 模型 中 转换 


我 们 经 常 将 特定 的 机 噩 学 习 模型 称 为 无 向 模型 或 有 向 模型 。 例 如 , 我 们 通常 将 受 
限 玻 尔 效 曼 机 称 为 无 向 模型 ， 而 稀 琉 编码 则 被 称 为 有 向 模型 。 这 种 措辞 的 选择 可 能 
有 点 误导 ， 因 为 没有 概率 模型 本 质 上 是 有 向 或 无 向 的 。 但 是 ， 一 些 模型 很 适合 使 用 
有 向 图 描述 ， 而 另 一 些 模型 很 适合 使 用 无 向 模型 描述 。 

有 向 模型 和 无 向 模型 都 有 其 优点 和 缺点 。 这 两 种 方法 都 不 是 明显 优越 和 普遍 优 
选 的 。 相 反 ， 我 们 根据 具体 的 每 个 任务 来 决定 使 用 哪 一 种 模型 。 这 个 选择 部 分 取决 
于 我 们 希望 描述 的 概率 分 布 。 根 据 哪 种 方法 可 以 最 大 程度 地 捕 提 到 概率 分 布 中 的 独 
立 性 ， 或 者 哪 种 方法 使 用 最 少 的 边 来 描述 分 布 ， 我 们 可 以 决定 使 用 有 向 建 模 还 是 无 
向 建 模 。 还 有 其 他 因素 可 以 影响 我 们 决定 使 用 哪 种 建 模 方 式 。 即 使 在 使 用 单个 概率 
分 布 时 ， 我 们 有 时 也 可 以 在 不 同 的 建 模 方式 之 间 切 换 。 有 时 ， 如 果 我 们 观察 到 变量 
的 某 个 子 集 ， 或 者 如 果 我 们 和 希望 执行 不 同 的 计算 任务 ， 换 一 种 建 模 方式 可 能 更 合适 。 
例如 ， 有 回 模 型 通常 提供 了 一 种 高 效 地 从 模型 中 抽取 样本 〈 在 第 16.3 节 中 描述 ) 的 
直接 方法 。 而 无 向 模型 形式 通常 对 于 推导 近似 推 基 过 程 〈 我 们 将 在 第 十 九 章 中 看 到 ， 
式 (19.56) 强调 了 无 向 模型 的 作用 ) 是 很 有 用 的 。 
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每 个 概率 分 布 可 以 由 有 向 模型 或 由 无 向 模型 表示 。 在 最 坏 的 情况 下 ， 我 们 可 以 
使 用 “完全 图 ”来 表示 任何 分 布 。 在 有 向 模型 的 情况 下 ， 完 全 图 是 任意 有 向 无 环 图 ， 
其 中 我 们 对 随机 变量 排序 ， 并 且 每 个 变量 在 排序 中 位 于 其 之 前 的 所 有 其 他 变量 作为 
其 图 中 的 祖先 。 对 于 无 向 模型 ， 完 全 图 只 是 包含 所 有 变量 的 单个 团 。 图 16.10 给 出 了 
一 个 实例 。 





























图 16.10: 完全 图 的 例子 ， 完 全 图 能 够 描述 任何 的 概率 分 布 。 这 里 我 们 展示 了 一 个 带 有 四 个 随机 变 
量 的 例子 。( 左 ) 完全 无 向 图 。 在 无 向 图 中 ， 完 全 图 是 唯一 的 。( 右 ) 一 个 完全 有 向 图 。 在 有 向 图 中 ， 
不 存在 唯一 的 完全 图 。 我 们 选择 一 种 变量 的 排序 ， 然 后 对 每 一 个 变量 ， 从 它 本 身 开 始 ， 向 每 一 个 
间 向 顺序 在 其 后 面 的 变量 画 一 条 弧 。 因 此 存在 着 关于 变量 数 阶乘 数量 级 的 不 同 种 完全 图 。 在 这 个 
例子 中 ,我们 从 左 到 右 从 上 到 下 地 排序 变量 。 

















































































































当然 , 图 模型 的 优势 在 于 图 能 够 包含 一 些 变 量 不 直接 相互 作用 的 信息 。 完 全 图 并 
不 是 很 有 用 ， 因 为 它 并 不 隐 含 任何 独立 性 。 

当 我 们 用 图 表示 概率 分 布 时 ， 我 们 想 要 选择 一 个 包含 尽 可 能 多 独立 性 的 图 ,但 
是 并 不 会 假设 任何 实际 上 不 存在 的 独立 性 。 

从 这 个 角度 来 看 ， 一 些 分 布 可 以 使 用 有 问 模 型 更 高 效 地 表示 ， 而 其 他 分 布 可 以 
使 用 无 向 模型 更 高 效 地 表示 。 换 名 话说 ， 有 向 模 型 可 以 编码 一 些 无 癌 模 型 所 不 能 编 
码 的 独立 性 ， 反 之 亦 然 。 

有 向 模型 能 够 使 用 一 种 无 向 模型 无 法 完美 表示 的 特定 类 型 的 子 结构 。 这 个 子 结 
构 被 称 为 不 道德 (immorality )。 这 种 结构 出 现在 当 两 个 随机 变量 a 和 b 都 是 第 三 个 
随机 变量 c 的 父 结 点 ， 并 且 不 存在 任 一 方向 上 直接 连接 as 和 b 的 边 时 。 (〈 “不 道德 ?”， 
的 名 字 可 能 看 起 来 很 奇怪 ; 它 在 图 模型 文献 中 使 用 源 于 一 个 关于 未 婚 父母 的 笑话 。) 
为 了 将 有 辐 模 型 图 了 转换 为 无 向 模型 ， 我 们 需要 创建 一 个 新 图 UK。 对 于 每 对 变量 x 
和 yy， 如 果 存 在 连接 卫 中 的 x 和 y 的 有 向 边 〈 在 任 一 方向 上 )， 或 者 如 果 x 和 y 都 
是 图 刀 中 另 一 个 变量 z 的 父 节 点 ， 则 在 WU 中 添加 连接 x 和 y 的 无 回 边 。 得 到 的 网 
2 被 称 为 是 道德 图 (moralized graph )。 关 于 一 个 通过 道德 化 将 有 向 图 模型 转化 为 无 
回 模 型 的 例子 可 以 参考 图 16.11 。 
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图 16.11: 通过 构造 道德 图 将 有 向 模型 (上 一 行 ) 转化 为 无 向 模型 (下 一 行 ) 的 例子 。( 左 ) 只 需要 
把 有 向 边 替换 成 无 向 边 就 可 以 把 这 个 简单 的 链 转化 为 一 个 道德 图 。 得 到 的 无 向 模型 包含 了 完全 相 
同 的 独立 关系 和 条 件 独 立 关系 。( 中 /) 这 个 岁 是 在 不 丢失 独立 性 的 情况 下 是 无 法 转化 为 无 向 模型 的 
最 简单 的 有 向 模型 。 这 个 图 包含 了 单个 完整 的 不 道德 结构 。 因 为 a 和 都 是 ec 的 父 节 点 ， 当 c 被 
观察 到 时 ， 它 们 之 间 通 过 活跃 路 径 相 连 。 为 了 捕捉 这 个 依赖 ， 无 向 模型 必须 包含 一 个 含有 所 有 三 
个 变量 的 团 。 这 个 团 无 法 编码 a 上 b 这 个 信息 。( 右 ) 一 般 来 说 ， 道 德 化 的 过 程 会 给 图 添加 许多 边 ， 
因此 丢失 了 一 些 隐 含 的 独立 性 。 举 个 例子 ， 这 个 稀 琉 编码 图 需要 在 每 一 对 隐藏 单元 之 间 添 加 道德 
化 的 边 ， 因 此 也 引入 了 二 次 数量 级 的 新 的 直接 依赖 。 
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同样 的 , 无 向 模型 可 以 包括 有 向 模型 不 能 完美 表示 的 子 结构 。 上 具体 来 说 ,如果 
包含 长 度 大 于 3 的 环 (loop )， 则 有 向 图 刀 不 能 捕获 无 向 模型 V 所 包含 的 所 有 条 件 
独立 性 ， 除 非 该 环 还 包含 弦 (chord )。 环 指 的 是 由 无 向 边 连接 的 变量 序列 ， 并 且 满 
足 序列 中 的 最 后 一 个 变量 连接 回 序 列 中 的 第 一 个 变量 。 弦 是 定义 环 序列 中 任意 两 个 
非 连续 变量 之 间 的 连接 。 如 果 WU 具有 长 度 为 4 或 更 大 的 环 ， 并 且 这 些 环 没有 弦 ， 我 
们 必须 在 将 它们 转换 为 有 向 模型 之 前 添加 弦 。 添 加 这 些 弦 会 丢弃 在 WU 中 编码 的 一 些 
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独立 信息 。 通 过 将 弦 添 加 到 Z 形成 的 图 被 称 为 弦 图 ( chordal graph ) 或 者 三 角形 化 
图 (triangulated graph )， 因 为 我 们 现在 可 以 用 更 小 的 、 三 角 的 环 来 描述 所 有 的 环 。 
要 从 驳 图 构建 有 回 图 卫 ， 我 们 还 需要 为 边 指定 方向 。 当 这 样 做 时 ， 我 们 不 能 在 中 
创建 有 癌 循 环 ， 和 否则 将 无 法 定义 有 效 的 有 回 概 率 模型 。 为 中 的 边 分 配方 向 的 一 种 
方法 是 对 随机 变量 排序 ， 然 后 将 每 个 边 从 排序 较 早 的 节点 指向 排序 稍 后 的 节点 。 一 
个 简单 的 实例 可 以 参考 图 16.12 。 


人 
OODCE 


图 16.12: 将 一 个 无 向 模型 转化 为 一 个 有 向 模型 。( 左 ) 这 个 无 向 模型 无 法 转化 为 有 向 模型 ， 因 为 它 
有 一 个 长 度 为 4 且 不 带 有 弦 的 环 。 具 体 说 来 ， 这 个 无 向 模型 包含 了 两 种 不 同 的 独立 性 ， 并 且 不 存 
在 一 个 有 向 模型 可 以 同时 描述 这 两 种 性 质 : a Lec | {b,d} 和 Pb 上 d|{fac}。( 中 ) 为 了 将 无 向 图 
转化 为 有 向 图 ， 我 们 必须 通过 保证 所 有 长 度 大 于 3 的 环 都 有 弦 来 三 角形 化 图 。 为 了 实现 这 个 目标 ， 
我 们 可 以 加 一 条 连接 a 和 c 或 者 连接 P 和 d 的 边 。 在 这 个 例子 中 ,我 们 选择 添加 一 条 连接 a 和 
的 边 。 人 ( 右 ) 为 了 完成 转化 的 过 程 ， 我 们 必须 给 每 条 边 分 配 一 个 方向 。 执 行 这 个 任务 时 ， 我 们 必须 
保证 不 产生 任何 有 向 环 。 避 免 出 现 有 向 环 的 一 种 方法 是 赋予 节点 一 定 的 顺序 ， 然 后 将 每 个 边 从 排 
序 较 早 的 节点 指向 排序 稍 后 的 节点 。 在 这 个 例子 中 ,我 们 根据 变量 名 的 字母 进行 排序 。 






















































































16.2.7 “因子 图 


因子 图 (factor graph ) 是 从 无 向 模型 中 抽样 的 另 一 种 方法 ， 它 可 以 解决 标准 无 
向 模型 语法 中 图 表达 的 模糊 性 。 在 无 向 模型 中 ， 每 个 % 函数 的 范围 必须 是 图 中 某 
个 团 的 子 集 。 我 们 无 法 确定 每 一 个 团 是 否 含有 一 个 作用 域 包含 整 个 团 的 因子 一 一 比 
如 说 一 个 包含 三 个 结 点 的 团 可 能 对 应 的 是 一 个 有 三 个 结 点 的 因子 ， 也 可 能 对 应 的 是 
三 个 因子 并 且 每 个 因子 包含 了 一 对 结 点 ， 这 通常 会 导致 模糊 性 。 通 过 显 式 地 表示 每 
一 个 少 函 数 的 作用 域 , 因子 图 解决 了 这 种 模糊 性 。 具 体 来 说 , 因子 图 是 一 个 包含 无 向 
二 分 图 的 无 向 模型 的 图 形 化 表示 。 一 些 节 点 被 绘制 为 圆 形 。 就 像 在 标准 无 向 模型 中 
一 样 ， 这 些 节 点 对 应 于 随机 变量 。 其 余 节 点 绘制 为 方块 。 这 些 节 点 对 应 于 未 归 一 化 
概率 卫 数 的 因子 %。 变 量 和 因子 可 以 通过 无 向 边 连 接 。 当 且 仅 当 变量 包含 在 未 归 一 
化 概率 函数 的 因子 中 时 ， 变 量 和 因子 在 图 中 存在 连接 。 没 有 因子 可 以 连接 到 图 中 的 
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另 一 个 因子 ， 也 不 能 将 变量 连接 到 变量 。 图 16.2.7 给 出 了 一 个 例子 来 说 明 因子 图 如 
何 解决 无 向 网 络 中 的 模糊 性 。 


SP BE 


图 16.13: 因子 图 如 何 解决 无 向 网 络 中 的 模糊 性 的 一 个 例子 。( 左 ) 一 个 包含 三 个 变量 (a、b 和 c ) 
的 团 组 成 的 无 向 网 络 。( 中 /) 对 应 这 个 无 向 模型 的 因子 图 。 这 个 因子 图 有 一 个 包含 三 个 变量 的 因子 。 
( 右 ) 对 应 这 个 无 向 模型 的 另 一 种 有 效 的 因子 图 。 这 个 因子 图 包含 了 三 个 因子 ， 每 个 因子 只 对 应 1 
个 变量 。 即 使 它们 表示 的 是 同一 个 无 向 模型 ， 这 个 因子 图 上 进行 的 表示 、 推 新 和 学 习 相 比 于 中 国 


描述 的 因子 图 都 要 渐 近 地 廉价 。 
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16.3 ”从 图 模型 中 采样 


图 模型 同样 简化 了 从 模型 中 采样 的 过 程 。 

有 向 图 模型 的 一 个 优点 是 ， 可 以 通过 一 个 简单 高 效 的 过 程 从 模型 所 表示 的 联合 
分 布 中 产生 样本 ， 这 个 过 程 被 称 为 原始 采样 ( Ancestral Sampling )。 

原始 采样 的 基本 思想 是 将 图 中 的 变量 x 使 用 拓扑 排序 , 使 得 对 于 所 有 守 和 7, 如 
果 xi 是 xj 的 一 个 父亲 结 点 ， 则 7 大 于 ;。 然 后 可 以 按 此 顺序 对 变量 进行 采样 。 换 句 
话说 ， 我 们 可 以 首先 采 xi ~ P(xi)， 然 后 采 xo ~ P(xs | Pac(xs))， 以 此 类 推 ， 直 到 
最 后 我 们 从 P(xn | Pac(xn)) 中 采样 。 只 要 不 难 从 每 个 条 件 分 布 xi ~ P(xi | Pac(xi)) 
中 采样 ， 那 么 从 整个 模型 中 采样 也 是 容易 的 。 拓 扑 排序 操作 保证 我 们 可 以 按照 
式 (16.1) 中 条 件 分 布 的 顺序 依次 采样 。 如 果 没 有 拓扑 排序 ， 我 们 可 能 会 在 其 父 节 点 
可 用 之 前 试图 对 该 变量 进行 抽样 。 

有 些 图 可 能 存在 多 个 拓扑 排序 。 原 始 采样 可 以 使 用 这 些 拓 扑 排序 中 的 任何 一 个 。 

原始 采样 通 党 非常 快 〈 假 设 从 每 个 条 件 分 布 中 采样 都 是 很 容易 的 ) 并 且 非 常 简 
便 。 

原始 采样 的 一 个 缺点 是 其 仅 适 用 于 有 向 图 模型 。 另 一 个 缺点 是 它 并 不 是 每 次 采 
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样 都 是 条 件 采 样 操 作 。 当 我 们 希望 从 有 向 图 模型 中 变量 的 子 集中 采样 时 ， 给 定 一 些 
其 他 变量 ， 我 们 经 常 要 求 所 有 给 定 的 条 件 变 量 在 顺序 图 中 比 要 采样 的 变量 的 顺序 要 
早 。 在 这 种 情况 下 ,我 们 可 以 从 模型 分 布 指定 的 局 部 条 件 概 率 分 布 中 采样 。 和 否则 , 我 
们 需要 采样 的 条 件 分 布 是 给 定 观 测 变量 的 后 验 分 布 。 这 些 后 验 分 布 在 模型 中 通常 没 
有 明确 指定 和 参数 化 。 推 新 这 些 后 验 分 布 的 代价 可 能 是 很 高 的 。 在 这 种 情况 下 的 模 
型 中 ， 原 始 采样 不 再 有 效 。 

不 季 的 是 ， 原 始 采样 仅 适 用 于 有 向 模型 。 我 们 可 以 通过 将 无 向 模型 转换 为 有 向 
模型 来 实现 从 无 问 模 型 中 抽样 ， 但 是 这 通常 需要 解决 棘手 的 推断 问题 〈 要 确定 新 有 
向 图 的 根 节 点 上 的 边缘 分 布 )， 或 者 需要 引入 许多 边 从 而 会 使 得 到 的 有 向 模型 变 得 难 
以 处 理 。 从 无 向 模型 采样 ， 而 不 首先 将 其 转换 为 有 向 模型 的 做 法 似乎 需要 解决 循环 
依赖 的 问题 。 每 个 变量 与 每 个 其 他 变量 相互 作用 ， 因 此 对 于 采样 过 程 没有 明确 的 起 
点 。 不 吉 的 是 ， 从 无 向 模型 中 抽取 样本 是 一 个 成 本 很 高 的 多 次 迭代 的 过 程 。 理 论 上 
最 简单 的 方法 是 Gibbs 采样 ( Gibbs Sampling )。 假 设 我 们 在 一 个 ” 维 向 量 的 随机 
变量 x 上 有 一 个 图 模型 。 我 们 和 代 地 访问 每 个 变量  ， 在 给 定 其 他 变量 的 条 件 下 从 
p(x; | x-;) 中 抽样 。 由 于 图 模型 的 分 离 性 质 ， 抽 取 zx 时 我 们 可 以 等 价 地 仅 对 六 的 邻 
居 条 件 化 。 不 幸 的 是 ， 在 我 们 过 历 图 模型 一 次 并 采样 所 有 7m 个 变量 之 后 ， 我 们 仍然 
无 法 得 到 一 个 来 自 p(x) 的 客观 样本 。 相 反 ， 我 们 必须 重复 该 过 程 并 使 用 它们 邻居 的 
更 新 值 对 所 有 7m 个 变量 重新 取样 。 在 多 次 重复 之 后 ， 该 过 程 渐 近 地 收敛 到 正确 的 目 
标 分 布 。 我 们 很 难 确定 样本 何 时 达到 所 期 望 分 布 的 足够 精确 的 近似 。 无 向 模型 的 采 
样 技术 是 一 个 高 级 的 研究 方向 ， 第 十 七 章 将 对 此 进行 更 详细 的 讨论 。 









































16.4 结构 化 建 模 的 优势 


使 用 结构 化 概率 模型 的 主要 优点 是 它们 能 够 显著 降低 表示 概率 分 布 、 学 习 和 推 
其 的 成 本 。 有 向 模型 中 采样 还 可 以 被 加 速 ， 但 是 对 于 无 向 模型 情况 则 较为 复杂 。 选 
择 不 对 某 些 变量 的 相互 作用 进行 建 模 是 允许 所 有 这 些 操作 使 用 较 少 的 运行 时 间 和 内 
存 的 主要 机 制 。 图 模型 通过 省 略 某 些 边 来 传达 信息 。 在 没有 边 的 情况 下 ， 模 型 假设 
不 对 变量 间 直 接 的 相互 作用 建 模 。 

结构 化 概率 模型 允许 我 们 明确 地 将 给 定 的 现 有 知识 与 知识 的 学 习 或 者 推 关 分开， 
这 是 一 个 不 容易 量化 的 益处 。 这 使 我 们 的 模型 更 容易 开发 和 调试 。 我 们 可 以 设计 、 
分 析 和 评估 适用 于 更 广 范围 的 图 的 学 习 算 法 和 推断 算法 。 同 时 ， 我 们 可 以 设计 能 够 
捕捉 到 我 们 认为 数据 中 存在 的 重要 关系 的 模型 。 然 后 ， 我 们 可 以 组 合 这 些 不 同 的 算 
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法 和 结构 ， 并 获得 不 同 可 能 性 的 笛 卡 尔 乘积 。 然 而 ， 为 每 种 可 能 的 情况 设计 端 到 端 
的 算法 会 更 加 困难 。 





16.5 “学 习 依赖 关系 


良好 的 生成 模型 需要 准确 地 捕获 所 观察 到 的 或 “可 见 ” 变 量 v 上 的 分 布 。 通 常 
v 的 不 同 元 素 彼此 高 度 依赖 。 在 深度 学 习 中 ， 最 常用 于 建 模 这 些 依 赖 关 系 的 方法 是 
引入 几 个 潜在 或 “隐藏 ”变量 h。 然 后 ， 该 模型 可 以 捕获 任何 对 (变量 w 和 vj 间 
接 依赖 可 以 通过 v, 和 h 之 间 直 接 依赖 和 h 和 v; 直接 依赖 捕获 ) 之 间 的 依赖 关系 。 

如 果 一 个 良好 的 关于 v 的 模型 不 包含 任何 潜 变 量 ， 那 么 它 在 贝 叶 斯 网 络 中 的 每 
个 节点 需要 具有 大 量 父 节点 或 在 马尔 可 夫 网 络 中 具有 非常 大 的 团 。 仅 仅 表示 这 些 高 
阶 相互 作用 的 成 本 就 很 高 了 ， 首 先 从 计算 角度 上 考虑 ， 存储 在 存储 器 中 的 参数 数量 
是 团 中 成 员 数量 的 指数 级 别 ， 接 着 在 统计 学 意义 上 ， 因 为 这 些 指数 数量 的 参数 需要 
大 量 的 数据 来 准确 估计 。 

当 模 型 旨 在 描述 直接 连接 的 可 见 变量 之 间 的 依赖 关系 时 ， 通 常 不 可 能 连接 所 有 
变量 ， 因 此 设计 图 模型 时 需要 连接 那些 紧密 相关 的 变量 ， 并 忽略 其 他 变量 之 间 的 
作用 。 机 器 学 习 中 有 一 个 称 为 结构 学 习 ( structure learning ) 的 领域 专门 讨论 这 个 
问题 。Koller and Friedman (2009) 是 一 个 不 错 的 结构 学 习 参 考 资料 。 大 多 数 结构 学 
习 技 术 基 于 一 种 贪 焚 搜 索 的 形式 。 它 们 提出 了 一 种 结构 ， 对 具有 该 结构 的 模型 进行 
训练 ,然后 给 出 分 数 。 该 分 数 奖励 训练 集 上 的 高 精度 并 对 模型 的 复杂 度 进行 惩罚 。 然 
后 提出 添加 或 移 除 少量 边 的 候选 结构 作为 搜索 的 下 一 步 。 搜 索 向 一 个 预计 会 增加 分 
数 的 新 结构 发 展 。 

使 用 光 变 量 而 不 是 自 适应 结构 避免 了 离散 搜索 和 多 轮训 练 的 需要 。 可 见 变量 
和 潜 变 量 之 间 的 固定 结构 可 以 使 用 可 见 单元 和 隐藏 单元 之 间 的 直接 作用 ， 从 而 建 模 
可 见 单 元 之 间 的 间接 作用 。 使 用 简单 的 参数 学 习 技 术 ， 我 们 可 以 学 习 到 一 个 具有 固 
定 结构 的 模型 ， 这 个 模型 在 边缘 分 布 p(w) 上 拥有 正确 的 结构 。 

潜 变 量 除 了 发 挥 本 来 的 作用 ， 即 能 够 高 效 地 描述 p(v) 以 外 ， 还 具有 另外 的 优 
势 。 新 变量 h 还 提供 了 v 的 替代 表示 。 例 如 ， 如 第 3.9.6 节 所 示 ， 高 斯 混合 模型 学 习 
了 一 个 潜 变量 ， 这 个 光 变 量 对 应 于 输入 样本 是 从 哪 一 个 混合 体 中 抽出 。 这 意味 着 高 
斯 混合 模型 中 的 潜 变 量 可 以 用 于 做 分 类 。 我 们 可 以 看 到 第 十 四 章 中 简单 的 概率 模型 
如 稀 玻 编码 ， 是 如 何 学 习 可 以 用 作 分 类 器 输入 特征 或 者 作为 流 形 上 坐标 的 潜 变 量 的 。 
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其 他 模型 也 可 以 使 用 相同 的 方式 ， 但 是 更 深 的 模型 和 具有 多 种 相互 作用 方式 的 模型 
可 以 获得 更 丰富 的 输入 描述 。 许 多 方法 通过 学 习 洪 变量 来 完成 特征 学 习 。 通 党 ， 给 
定 v 和 jh， 实 验 观 察 显 示 下 [h | v] 或 argmax p(j v) 都 是 v 的 良好 特征 映射 。 














16.6 “推断 和 近似 推断 


解决 变量 之 间 如 何 相互 关联 的 问题 是 我 们 使 用 概率 模型 的 一 个 主要 方式 。 给 定 
一 组 医学 测试 ， 我 们 可 以 询问 患者 可 能 患 有 什么 疾病 。 在 一 个 潜 变 量 模型 中 ， 我 们 
可 能 需要 提取 能 人 够 描述 可 观察 变量 v 的 特征 也 hh | vj。 有 时 我 们 需要 解决 这 些 问题 
来 执行 其 他 任务 。 我 们 经 常 使 用 最 大 似 然 的 准则 来 训练 我 们 的 模型 。 由 于 


logp(o) = 了 hshlolog2p(P ov) 一 logp( 产 | 四， (16.9) 
学 习 过 程 中 ， 我 们 经 常 需要 计算 p(h | 妃 。 所 有 这 些 都 是 推断 (inference ) 问题 的 例 
子 ， 其 中 我 们 必须 预测 给 定 其 他 变量 的 情况 下 一 些 变量 的 值 ， 或 者 在 给 定 其 他 变量 
值 的 情况 下 预测 一 些 变量 的 概率 分 布 。 

不 幸 的 是 ， 对 于 大 多 数 有 趣 的 深度 模型 来 说 ， 即 使 我 们 使 用 结构 化 图 模型 来 简 
化 这 些 推断 问题 ， 它 们 仍然 是 难以 处 理 的 。 岁 结构 允许 我 们 用 合理 数量 的 参数 来 表 
示 复 杂 的 高 维 分 布 ， 但 是 用 于 深度 学 习 的 图 并 不 满足 这 样 的 条 件 ， 从 而 难以 实现 高 
效 地 推 新 。 

我 们 可 以 直接 看 出 ， 计 算 一 般 图 模型 的 边缘 概率 是 #P-hard 的 。 复 杂 性 类 别 
#P 是 复杂 性 类 别 NP 的 泛 化 。NP 中 的 问题 只 需 确 定 其 中 一 个 问题 是 否 有 解决 方 
案 ， 并 找到 一 个 解决 方案 ( 如 果 存 在 ) 就 可 以 解决 。#P 中 的 问题 需要 计算 解决 方案 
的 数量 。 为 了 构建 最 坏 情 况 的 图 模型 ， 我 们 可 以 设想 一 下 我 们 在 3-SAT 问题 中 定义 
二 值 变量 的 图 模型 。 我 们 可 以 对 这 些 变量 施加 均匀 分 布 。 然 后 我 们 可 以 为 每 个 子 名 
添加 一 个 二 值 淤 变量， 来 表示 每 个 子 句 是 否 成 立 。 然 后 ， 我 们 可 以 添加 另 一 个 潜 变 
量 ， 来 表示 所 有 子 句 是 否 成 立 。 这 可 以 通过 构造 一 个 潜 变 量 的 缩减 树 来 完成 ， 树 中 
的 每 个 结 点 表示 其 他 两 个 变量 是 否 成 立 ， 从 而 不 需要 构造 一 个 大 的 团 。 该 树 的 叶 是 
每 个 子 句 的 变量 。 树 的 根 表示 整个 问题 是 否 成 立 。 由 于 子 句 的 均匀 分 布 ， 缩 减 树 根 
结 点 的 边缘 分 布 表示 子 负 有 多 少 比例 是 成 立 的 。 虽 然 这 是 一 个 设计 的 最 坏 情况 的 例 
子 ，NP-hard 网 确实 会 频繁 地 出 现在 现实 世界 的 场景 中 。 

这 促使 我 们 使 用 近似 推断。 在 深度 学 习 中 ， 这 通常 涉及 变 分 推 亲 ， 其 中 通过 寻 
求 尽 可 能 接近 真实 分 布 的 近似 分 布 v(h | v) 来 通 近 真实 分 布 pth | 妃 。 这 个 技术 将 在 

























































































本 第 十 六 章 ， 深 度 学 习 中 的 结构 化 概率 模型 


第 十 九 章 中 深入 讨论 。 


16.7 ”结构 化 概率 模型 的 深度 学 习 方法 


深度 学 习 从 业者 通常 与 其 他 从 事 结构 化 概率 模型 研究 的 机 器 学 习 研究 者 使 用 相 
同 的 基本 计算 工具 。 然 而 ， 在 深度 学 习 中 ,我们 通常 对 如 何 组 合 这 些 工具 作出 不 同 
的 设计 决定 ， 导 臻 总 体 算法 、 模 型 与 更 传统 的 图 模型 具有 非常 不 同 的 风格 。 

深度 学 习 并 不 总 是 涉及 特别 深 的 图 模型 。 在 图 模型 中 ， 我 们 可 以 根据 图 模型 的 
图 而 不 是 计算 图 来 定义 模型 的 深度 。 如 果 从 潜 变量 妨 到 可 观察 变量 的 最 短路 径 是 / 
步 ， 我们 可 以 认为 潜 变量 已 处 于 深度 7。 我 们 通常 将 模型 的 深度 描述 为 任何 这 样 的 
态 的 最 大 深度 。 这 种 深度 不 同 于 由 计算 图 定义 的 深度 。 用 于 深度 学 习 的 许多 生成 模 
型 没有 潜 变量 或 具有 一 层 潜 变量 ， 但 使 用 深度 计算 图 来 定义 模型 中 的 条 件 分 布 。 

深度 学 习 基本 上 总 是 利用 分 布 式 表示 的 思想 。 即 使 是 用 于 深度 学 习 目的 的 浅 层 
模型 (例如 预 训练 浅 层 模型 ， 稍 后 将 形成 深层 模型 )， 也 几乎 总 是 具有 单个 大 的 潜 变 
量 层 。 深 度 学 习 模 型 通常 具有 上 比 可 观察 变量 更 多 的 潜 变量 。 变 量 之 间 复杂 的 非 线性 
相互 作用 通过 多 个 潜 变量 的 间接 连接 来 实现 。 

相 比 之 下 ， 传 统 的 图 模型 通常 包含 至 少 是 偶尔 观察 到 的 变量 ， 即 使 一 些 训练 样 
本 中 的 许多 变量 随机 地 丢失 。 传 统 模型 大 多 使 用 高 阶 项 和 结构 学 习 来 捕获 变量 之 间 
复杂 的 非 线性 相互 作用 。 如 果 有 潜 变 量 ， 它 们 的 数量 通常 很 少 。 

潜 变量 的 设计 方式 在 深度 学 习 中 也 有 所 不 同 。 深 度 学 习 从 业者 通常 不 希望 潜 变 
量 提前 包含 了 任何 特定 的 含义 一 一 训 练 算法 可 以 自由 地 开发 对 特定 数据 集 建 模 所 需 
要 的 概念 。 在 事后 解释 潜 变 量 通常 是 很 困难 的 ， 但 是 可 视 化 技术 可 以 得 到 它们 表示 
的 一 些 粗 略 表征 。 当 潜 变 量 在 传统 图 模型 中 使 用 时 ， 它 们 通常 被 赋予 一 些 特定 含义 
一 一 比如 文档 的 主题 、 学 生 的 智力 、 导 致 患 者 症状 的 疾病 等 。 这 些 模型 通常 由 研究 
者 解释 ， 并 且 通 常 具 有 更 多 的 理论 保证 ， 但 是 不 能 扩展 到 复杂 的 问题 ， 并 且 不 能 像 
深度 异型 一 样 在 许多 不 同 背 景 中 重复 使 用 。 

另 一 个 明显 的 区 别 是 深度 学 习 方法 中 经 常 使 用 的 连接 类 型 。 深 度 图 模型 通常 具 
有 大 的 与 其 他 单元 组 全 连接 的 单元 组 ， 使 得 两 个 组 之 间 的 相互 作用 可 以 由 单个 矩阵 
描述 。 传 统 的 图 模型 具有 非常 少 的 连接 ， 并 且 每 个 变量 的 连接 选择 可 以 单独 设计 。 
模型 结构 的 设计 与 推 斯 算法 的 选择 紧密 相关 。 图 模型 的 传统 方法 通常 骨 在 保持 精确 
推断 的 可 解 性 。 当 这 个 约束 太 强 时 ， 我 们 可 以 采用 一 种 流行 的 被 称 为 环 状 信念 传播 
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(loopy belief propagation ) 的 近似 推断 算法 。 这 两 种 方法 通常 在 稀 朴 连接 图 上 都 有 
很 好 的 效果 。 相 比 之 下 ， 在 深度 学 习 中 使 用 的 模型 倾 癌 于 将 每 个 可 见 单元 vi 连接 到 
非常 多 的 隐藏 单元 by 上 ， 从 而 使 得 h 可 以 获得 一 个 vi 的 分 布 式 表 示 (也 可 能 是 其 
他 几 个 可 观察 变量 )。 分 布 式 表示 具有 许多 优点 ， 但 是 从 图 模型 和 计算 复杂 性 的 观点 
来 看 ， 分 布 式 表示 有 一 个 缺点 就 是 很 难产 生 对 于 精确 推 亲 和 环 状 信念 传播 等 传统 技 
术 来 说 足够 稀 玻 的 图 。 结 果 ， 大 规模 图 模型 和 深度 图 模型 最 大 的 区 别 之 一 就 是 深度 
学 习 中 几乎 从 来 不 会 使 用 环 状 信念 传播 。 相 反 的 ， 许 多 深度 学 习 模 型 可 以 设计 来 加 
速 Gibbs 采样 或 者 变 分 推断 。 此 外 ， 深 度 学 习 模 型 包含 了 大 量 的 潜 变 量 ， 使 得 高 效 
的 数值 计算 代码 显得 格外 重要 。 除 了 选择 高 级 推断 算法 之 外 ， 这 提供 了 另外 的 动机 ， 
用 于 将 结 点 分 组 成 层 ， 相 邻 两 层 之 间 用 一 个 和 矩阵 来 描述 相互 作用 。 这 要 求实 现 算 法 
的 单个 步骤 可 以 实现 高 效 的 抢 阵 乘积 运算 ， 或 者 专门 适用 于 稀 玻 连接 的 操作 ， 例 如 
块 对 角 和 殉 阵 乘积 或 卷 积 。 

最 后 ， 图 模型 的 次 度 学 习 方 法 的 一 个 主要 特征 在 于 对 未 知 量 的 较 高 容忍 度 。 与 
简化 模型 直到 它 的 每 一 个 量 都 可 以 被 精确 计算 不 同 的 是 ， 我 们 仅仅 直接 使 用 数据 运 
行 或 者 是 训练 ， 以 增强 模型 的 能 力 。 我 们 一 般 使 用 边缘 分 布 不 能 计算 的 模型 ， 但 可 
以 从 中 简单 地 采 近 似 样 本 。 我 们 经 常 训练 具有 难以 处 理 的 目标 函数 的 模型 ， 我 们 甚 
至 不 能 在 合理 的 时 间 内 近似 ， 但 是 如 果 我 们 能 够 高 效 地 获得 这 样 一 个 函数 的 梯度 佑 
计 ， 我 们 仍然 能 够 近似 训练 模型 。 深 度 学 习 方 法 通常 是 找 出 我 们 绝对 需要 的 最 小 量 
言 息 ， 然 后 找 出 如 何 尽 快 得 到 该 信息 的 合理 近似 。 





























16.7.1 实例: 受 限 玻 尔 将 曼 机 


受 限 玻 尔 效 曼 机 ( Restricted Boltzmann Machine, RBM ) (Smolensky, 1986) 或 
者 得 风琴 (harmonium ) 是 图 模型 如 何 用 于 深度 学 习 的 典型 例子 。RBM 本 身 不 是 一 
个 深层 模型 。 相 反 ， 它 有 一 层 潜 变量 ， 可 用 于 学 习 输 入 的 表示 。 在 第 二 十 章 中 , 我 们 
将 看 到 RBM 如 何 被 用 来 构建 许多 的 深层 模型 。 在 这 里 ， 我 们 举例 展示 了 RBM 在 
许多 深度 图 模型 中 使 用 的 实践 : 它 的 单元 被 分 成 很 大 的 组 ， 这 种 组 称 作 层 ， 层 之 间 
的 连接 由 和 矩 阵 描述 ， 连 通 性 相对 密集 。 该 模型 被 设计 为 能 够 进行 高 效 的 Gibbs 采样 ， 
并 且 模 型 设计 的 重点 在 于 以 很 高 的 自由 度 来 学 习 淤 变量 ， 而 光 变 量 的 含义 并 不 是 设 
计 者 指定 的 。 之 后 在 第 20.2 节 ， 我 们 将 更 详细 地 再 次 讨论 RBM。 

标准 的 RBM 是 具有 二 值 的 可 见 和 隐藏 单元 的 基于 能 量 的 模型 。 其 能 量 数 为 

书 (站 = 一 cr 一 or (16.10) 
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其 中 慷 c 和 环 都 是 无 约束 、 实 值 的 可 学 习 参 数 。 我 们 可 以 看 到 ， 模 型 被 分 成 两 组 
单元 : v 和 天， 它们 之 间 的 相互 作用 由 移 阵 环 来 撒 述 。 该 模型 在 图 16.14 中 以 图 的 
形式 描绘 。 该 图 能 够 使 我 们 更 清楚 地 发 现 ， 该 模型 的 一 个 重要 方面 是 在 任何 两 个 可 
见 单元 之 间或 任何 两 个 隐藏 单元 之 间 没 有 直接 的 相互 作用 〈 因此 称 为 “ 受 限 ”， 一 般 
的 玻 尔 兹 曼 机 可 以 具有 任意 连接 ) 

















图 16.14: 一 个 画 成 马尔 可 夫 网 络 形式 的 RBM。 








对 RBM 结构 的 限制 产生 了 良好 的 属性 


phlv)= 工 [zlv) (16.11) 
以 及 
ztvlb) = 工 [zlD) (16.12) 
独立 的 条 件 分 布 很 容易 计算 。 对 于 二 元 的 受 限 玻 尔 效 曼 机 ， 我 们 可 以 得 到 ， 
ph =1Tlv)=colv 全 十 轨 )， (16.13) 
ph =0Iv)=1-colv 琵 ，+o)， (16.14) 





结合 这 些 属 性 可 以 得 到 高 效 的 块 吉 布 斯 采样 (block Gibbs Sampling )， 它 在 同时 采 
样 所 有 疡 和 同时 采样 所 有 u 之 间 交 替 。RBM 模型 通过 Gibbs 采样 产生 的 样本 展示 
在 图 16.15 中 。 
由 于 能 量 机 数 本 身 只 是 参数 的 线性 函数 ， 很 容易 获取 能 量 函 数 的 导数 。 例 如 ， 
0 
OP i 








五 (vb) 一 一 Viby， (16.15) 





这 两 个 属性 , 高 效 的 Gibbs 采样 和 导数 计算 , 使 训练 过 程 变 得 非 党 方便。 在 第 十 
八 章 中 ,我 们 将 看 到 ， 可 以 通过 计算 应 用 于 这 种 来 自 模型 样本 的 导数 来 训练 无 向 模 
型 。 
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图 16.15: 训练 好 的 RBM 的 样本 及 其 权重 。( 左 ) 用 MNIST 训练 模型 ， 然 后 用 Gibbs 采样 进行 
采样 。 每 一 列 是 一 个 单独 的 Gibbs 采样 过 程 。 每 一 行 表示 另 一 个 1000 步 后 Gibbs 采样 的 输出 。 
连续 的 样本 之 间 彼 此 高 度 相 关 。( 右 ) 对 应 的 权重 向 量 。 将 本 图 结果 与 图 13.2 中 描述 的 线性 因子 模 
型 的 样本 和 权重 相 比 。 由 于 RBM 的 先 验 p( 冯 没有 限制 为 因子 ， 这 里 的 样本 表现 得 好 很 多 。 采 样 
时 RBM 能 够 学 习 到 哪些 特征 需要 一 起 出 现 。 另 一 方面 说 ，RBM 后 验 p( 疡 | w) 是 因子 的 ， 而 稀 玻 
编码 的 后 验 并 不 是 ， 所 以 在 特征 提取 上 稀 玻 编码 模型 表现 得 更 好 。 其 他 的 模型 可 以 使 用 非 因 子 的 
2P(j 和 非 因子 的 p( 户 | 站 。 图 片 经 LISA (2008) 允许 转载 。 



























































训练 模型 可 以 得 到 数据 v 的 表示 九 。 我 们 经 党 使 用 下 plo[ 辣 作为 一 组 描述 v 
的 特征 。 

总 的 来 说 ，RBM 展示 了 姐 型 的 图 模型 深度 学 习 方 法 : 使 用 多 层 潜 变量 ， 并 由 和 拖 
阵 参 数 化 层 之 间 的 高 效 相互 作用 来 完成 表示 学 习 。 

图 模型 为 撕 述 概率 模型 提供 了 一 种 优雅 、 灵 活 、 清 晰 的 语言 。 在 未 来 的 章节 中 ， 
我 们 将 使 用 这 种 语言 ， 以 其 他 视角 来 描述 各 种 各 样 的 深度 概率 模型 。 





第 十 七 章 “” 蒙特 卡 罗 方 法 


随机 算法 可 以 粗略 地 分 为 两 类 : Las Vegas 算法 和 蒙特 卡 罗 算 法 。Las Vegas 算 
法 总 是 精确 地 返回 一 个 正确 答案 (或 者 返回 算法 失败 了 )。 这 类 方法 通 篆 需要 占用 随 
机 量 的 计算 资源 (一般 指 内 存 或 运行 时 间 )。 与 此 相对 的 ， 蒙 特 卡 罗 方 法 返回 的 答案 
具有 随机 大 小 的 错误 。 花 费 更 多 的 计算 资源 〈 通 常 包括 内 存 和 运行 时 间 ) 可 以 减少 
这 种 错误 。 在 任意 固定 的 计算 资源 下 ， 蒙 特 卡 罗 算 法 可 以 得 到 一 个 近似 解 。 

对 于 机 需 学 习 中 的 许多 问题 来 说 ， 我 们 很 难得 到 精确 的 答案 。 这 类 问题 很 难 用 
精确 的 确定 性 算法 如 Las Vegas 算法 解决 。 取 而 代 之 的 是 确定 性 的 近似 算法 或 蒙特 卡 
罗 近 似 方法 。 这 两 种 方法 在 机 吉 学 习 中 都 非常 普遍 。 本 章 主要 关注 蒙特 卡 罗 方 法 。 











17.1 “采样 和 蒙特 卡 罗 方 法 


机 融 学 习 中 的 许多 重要 工具 都 基于 从 某 种 分 布 中 采样 以 及 用 这 些 样 本 对 目标 量 
做 一 个 蒙特 卡 罗 佑 计 。 


17.1.1 “为 什么 需要 采样 ? 


有 许多 原因 使 我 们 希望 从 某 个 分 布 中 采样 。 当 我 们 需要 以 较 小 的 代价 近似 许多 
项 的 和 或 某 个 积分 时 ， 采 样 是 一 种 很 灵活 的 选择 。 有 时 候 ， 我 们 使 用 它 加 速 一 些 很 
费时 却 易于 处 理 的 求 和 估计 ， 就 像 我 们 使 用 小 批量 对 整个 训练 代价 进行 子 采 样 一样 。 
在 其 他 情况 下 ， 我 们 需要 近似 一 个 难以 处 理 的 求 和 或 积分 ， 例 如 估计 一 个 无 向 模 
型 中 配 分 函数 对 数 的 梯度 时 。 在 许多 其 他 情况 下 ， 抽 样 实际 上 是 我 们 的 目标 ， 例 如 
我 们 想 训练 一 个 可 以 从 训练 分 布 采样 的 模型 。 

502 








JI7.1 采样 和 蒙特 卡 罗 方 法 503 


17.1.2 ”蒙特 卡 罗 采 样 的 基础 


当 无 法 精确 计算 和 或 积分 〈 例 如 ， 和 具有 指数 数量 个 项 ， 且 无 法 被 精确 简化 ) 
时 ， 通 常 可 以 使 用 蒙特 卡 罗 采 样 来 近似 它 。 这 种 想法 把 和 或 者 积分 视 作 某 分 布下 的 
期 望 ， 然 后 通过 估计 对 应 的 平均 值 来 近似 这 个 期 望 。 令 


s= pmjta = 已 Ho G7.1 


5= /oaJade= 书 Go (7 
为 我 们 所 需要 合计 的 和 或 者 积分 ， 写 成 期 望 的 形式 ，P 是 一 个 关于 随机 变量 x 的 概 
率 分 布 【 求 和 时 ) 或 者 概率 密度 函数 ( 求 积分 时 
我 们 可 以 通过 从 2 中 抽取 m 个 样本 zz 来 近似 s 并 得 到 一 个 经 验 平均 
什 
2 FaG)， (17.3) 
?一 | 


下 面 几 个 性 质 表 明了 这 种 近似 的 合理 性 。 首 移 很 容易 观察 到 $ 这 个 估计 是 无 偏 的 ， 
由 于 















































1 1 忆 

[sn] 于 放 : 开 [Fe 三 为 、 本 训 (17.4) 
4 半 二 站 

此 外 ,根据 大 数 定 理 (Law of large number )， 如 果 样 本 zt9 是 独立 同 分 布 的 , 那么 

其 平均 值 几乎 必然 收敛 到 期 望 值 ， 即 





im 加 二 8 (17.5) 


只 需要 满足 各 个 单项 的 方差 Var[j(z(9)] 有 界 。 详 细 地 说 ， 我 们 考虑 当 呈 增 大 时 各 
的 方差 。 只 要 满足 Var[j(xG))] < ce， 方差 Var[su] 就 会 减 小 并 收敛 到 0， 


二 启 > VarGol (17.6) 
过 Var eol (17.7) 


人 
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这 个 简单 有 用 的 结果 启迪 我 们 如 何 估 计 蒙 特 卡 罗 均 值 中 的 不 确定 性 ， 或 者 等 价 地 说 
是 蒙特 卡 罗 估 计 的 期 望 误差 。 我 们 计算 了 (ztG) 的 经 验 均 值 和 方差 1， 然 后 将 估计 的 
方差 除 以 样本 数 浆 来 得 到 Var[eu] 的 估计 。 中 心 极 限定 理 〈central limit theorem ) 
告诉 我 们 8 的 分 布 收敛 到 以 s 为 均值 以 “Leol 为 方差 的 正 态 分 布 。 这 使 得 我 们 可 
以 利用 正 态 分 布 的 累积 函数 来 估计 8 的 置信 区 间 。 

以 上 的 所 有 结论 都 依赖 于 我 们 可 以 从 基准 分 布 p(x) 中 轻易 地 采样 ， 但 是 这 个 
假设 并 不 是 一 直 成 立 的 。 当 我 们 无 法 从 pz 中 采样 时 ， 一 个 备 选 方案 是 用 第 17.2 节 讲 
到 的 重要 采样 。 一 种 更 加 通用 的 方式 是 构建 一 个 收 仿 到 目标 分 布 的 估计 序列 。 这 就 
是 马尔 可 夫 链 蒙特 卡 罗 方 法 〈 见 第 17.3 节 )。 





17.2 “重要 采样 


如 方程 (17.2) 所 示 ， 在 蒙特 卡 罗 方 法 中 ， 对 积分 (或 者 和 ) 分 解 ， 确 定 积分 中 哪 
一 部 分 作为 概率 分 布 p(z) 以 及 哪 一 部 分 作为 被 积 的 函数 /zz) (我 们 感 兴趣 的 是 佑 
计 /zz) 在 概率 分 布 p(z) 下 的 期 望 ) 是 很 关键 的 一 步 。p(z)jz) 不 存在 唯一 的 分 解 ， 
因为 它 总 是 可 以 被 写成 





(17.8) 


在 这 里 ， 我 们 从 4 分 布 中 采样 ， 然 后 估计 对 在 此 分 布下 的 均值 。 许 多 情况 中 ,我 们 
希望 在 给 定 2 和 字 的 情况 下 计算 某 个 期 望 ， 这 个 问题 既然 是 求 期 望 ， 那 么 很 自然 地 
2 和 了 是 一 种 分 解 选 择 。 然 而 ， 如 果 考 虑 达到 某 给 定 精 度 所 需要 的 样本 数量 ， 这 个 
问题 最 初 的 分 解 选择 不 是 最 优 的 选择 。 幸 和 运 的 是 ， 最 优 的 选择 o“ 可 以 被 简单 地 推导 
出 来 。 这 种 最 优 的 采样 冰 数 %* 对 应 所 谓 的 最 优 重要 采样 。 

从 式 (17.8) 所 示 的 关系 中 可 以 发 现 ， 任 意 蒙 特 卡 罗 佑 计 


5 = 》 te) 479) 


?一 1,z(G) wpD 


可 以 被 转化 为 一 个 重要 采样 的 佑 计 


n orz)yPrag 
本 到 有 (17.10) 


:通常 我 们 会 倾向 于 计算 方差 的 无 偏 估计 ， 它 由 偏差 的 平方 和 除 以 凤 一 工 而 非 ” 得 到 。 


人 
1 一 1)z(wq 
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我 们 可 以 容易 地 发 现 佑 计 的 期 望 与 dg 分 布 无 关 : 

















gu[s] 一 下 [si] = 5. (17.11) 











然而 ， 重 要 采样 的 方差 可 能 对 4 的 选择 非常 敏感 。 这 个 方差 可 以 表示 为 





Var[sj] = Var [至 交 于 | /7 (17.12) 


方差 想 要 取 到 最 小 值 ，4 需要 满足 





和 (2) 三 (17.13) 


在 这 里 2 表示 归 一 化 常数 ， 选 择 适 当 的 2 使 得 %(z) 之 和 或 者 积分 为 1。 一 个 更 好 
的 重要 采样 分 布 会 把 更 多 的 权重 放 在 被 积 函数 较 大 的 地 方 。 事 实 上 ， 当 jz) 的 正 负 
符号 不 变 时 ，Var[iv*] = 0， 这 意味 着 当 使 用 最 优 的 9 分 布 时 ， 只 需要 一 个 样本 就 足 
够 7 了 7。 当然 ， 这 仅仅 是 因为 计算 9* 时 已 经 解决 了 原 问题 。 所 以 在 实践 中 这 种 只 需要 
采样 一 个 样本 的 方法 往往 是 无 法 实现 的 。 

对 于 重要 采样 来 说 任意 9 分 布 都 是 可 行 的 (从 得 到 一 个 期 望 上 正确 的 值 的 角度 
来 说 )，4* 指 的 是 最 优 的 9 分 布 〈 从 得 到 最 小 方差 的 角度 上 考虑 )。 从 入 中 采样 往 
往 是 不 可 行 的 ， 但 是 其 他 仍然 能 降低 方差 的 9 的 选择 还 是 可 行 的 。 

另 一 种 方法 是 采用 有 偏重 要 采样 ( biased importance sampling )， 这 种 方法 有 
一 个 优势 ， 即 不 需要 归 一 化 的 pz 或 9 分 布 。 在 处 理 离散 变量 时 ， 有 偏重 要 采样 估计 
可 以 表示 为 





























全 jz00) 
区 交 二 三 王 - 5 (17.14) 
汉人 2(zC)) 
?1 qd(z0) 
(GD) 
| 有 2 ) 
和 二 人 (17.15) 
2 这 灿 G(zG )) 
寺 区 
民 王 So Fo 9) 
人 (17.16) 





志 区 
其 中 万 和 5 分 别 是 分 布 六 和 4 的 未 经 归 一 化 的 形式 ，zt9 是 从 分 布 g 中 抽取 的 样本 。 


这 种 估计 是 有 侦 的 ， 因 为 也 [Spbrs] 入 s， 只 有 当 叶 一 co 且 方 程 式 (17.14) 的 分 母 收敛 
到 1 时 ， 等 式 才 渐 近 地 成 立 。 所 以 这 一 估计 也 被 称 为 渐 近 无 偏 的 。 
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一 个 好 的 9 分 布 的 选择 可 以 显著 地 提高 蒙特 卡 罗 估 计 的 效率 ， 而 一 个 糟糕 的 4 
分 布 选择 则 会 使 效率 更 糟糕 。 我 们 回 过 头 来 看 看 方程 式 (17.12) 会 发 现 ， 如 果 存 在 一 
个 4 使 得 呈 凤 很 大 , 那么 这 个 估计 的 方差 也 会 很 大 。 当 4q(z) 很 小 , 而 j(z) 和 P(z 
都 较 大 并 且 无 法 抵消 g 时 ,这 种 情况 会 非常 明显 。9 分 布 经 常会 取 一 些 简 单 常 用 的 分 
布 使 得 我 们 能 够 从 9 分 布 中 容易 地 采样 。 当 z 是 高 维 数据 时 ,4 分 布 的 简单 性 使 得 它 
很 难 与 p 或 者 由/j 略 相 匹配 。 当 g(zG9) 六 p(z9)|J(zGO)| 时 ， 重 要 采样 采 到 了 很 多 无 
用 的 样本 很 小 的 数 或 零 相 加 )。 另 一 种 相对 少见 的 情况 是 q(z) < p(zG9)| jzO)|， 
相应 的 比值 会 非常 大 。 正 因为 后 一 个 事件 是 很 少 发 生 的 ， 这 种 样本 很 难 被 采 到 ， 通 
常 使 得 对 s 的 合计 出 现 了 典型 的 从 舍 计 ， 很 难 被 整体 的 过 售 计 抵消 。 这 样 的 不 均 色 
情况 在 高 维 数据 屡见不鲜 ， 因 为 在 高 维度 分 布 中 联合 分 布 的 动态 域 可 能 非常 大 。 

尽管 存在 上 述 的 风险 ， 但 是 重要 采样 及 其 变种 在 机 器 学 习 的 应 用 中 仍然 扮演 着 
重要 的 角色 ， 包 括 深度 学 习 算法 。 例 如 ， 重 要 采样 被 应 用 于 加 速 训 练 具有 大 规模 词 
表 的 神经 网 络 语言 模型 的 过 程 中 ( 见 第 12.4.3.3 节 ) 或 者 其 他 有 着 大 量 输出 结 点 的 神 
经 网 络 中 。 此 外 ， 还 可 以 看 到 重要 采样 应 用 于 估计 配 分 函数 (一 个 概率 分 布 的 归 一 
化 常数 )， 详 见 第 18.7 节 ， 以 及 在 深度 有 向 图 模型 比如 变 分 自 编码 器 中 估计 对 数 似 然 
( 详 见 第 20.10.3 节 )。 采 用 随机 梯度 下 降 训练 模型 参数 时 重要 采样 可 以 用 来 改进 对 代 
价 函 数 梯度 的 估计 ， 尤 其 是 分 类 器 这 样 的 模型 ， 其 中 代价 函数 的 大 部 分 代价 来 自 于 
少量 错误 分 类 的 样本 。 在 这 种 情况 下 ， 更 加 频繁 地 抽取 这 些 困 难 的 样本 可 以 减 小 梯 
度 估 计 的 方差 (Hinton et al., 2006a)。 




















17.3 ”马尔 可 夫 链 蒙特 卡 罗 方 法 


在 许多 实例 中 , 我 们 和 希望 采用 蒙特 卡 罗 方 法 , 然而 往往 又 不 存在 一 种 简单 的 方法 
可 以 直接 从 目标 分 布 paoas(x) 中 精确 采样 或 者 一 个 好 的 (方差 较 小 的 ) 重要 采样 分 
布 g(z)。 在 深度 学 习 中 ,， 当 分 布 pmoas(x) 表示 成 无 问 模型 时 ,这 种 情况 往往 会 发 生 。 
在 这 种 情况 下 ， 为 了 从 分 布 pmoaa(x) 中 近似 采样 ， 我 们 引入 了 一 种 称 为 马尔 可 夫 
链 ( Markov Chain ) 的 数学 工具 。 利 用 马尔 可 夫 链 来 进行 蒙特 卡 罗 估 计 的 这 一 类 算 
法 被 称 为 马尔 可 夫 链 蒙特 卡 罗 ( Markov Chain Monte Carlo, MCMC ) 方法 。Koller 
and Friedman (2009) 花 了 大 量 篇 幅 来 描述 马尔 可 夫 链 蒙特 卡 罗 算 法 在 机 器 学 习 中 的 
应 用 。MCMC 技术 最 标准 、 最 一 般 的 理论 保证 只 适用 于 那些 各 状态 概率 均 不 为 零 的 
模型 。 因 此 ， 这 些 技术 最 方便 的 使 用 方法 是 用 于 从 基于 能 量 的 模型 ( Energy-based 
model ) 即 p(z) cc exp( 一 已 (四 ) 中 采样 ， 见 第 16.2.4 节 。 在 EBM 的 公式 表述 中 ， 
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一 个 状态 所 对 应 的 概率 都 不 为 零 。 事 实 上 ，MCMC 方法 可 以 被 广泛 地 应 用 在 包含 0 
概率 状态 的 许多 概率 分 布 中 。 然 而 , 在 这 种 情况 下 ,关于 MCMSC 方法 性 能 的 理论 保 
证 只 能 依据 具体 不 同类 型 的 分 布 具体 分 析 证 明 。 在 深度 学 习 中 ， 我 们 通常 依赖 于 那 
些 一 般 的 理论 保证 ， 其 在 所 有 基于 能 量 的 模型 都 能 自然 成 立 。 

为 了 解释 从 基于 能 量 的 模型 中 采样 困难 的 原因 ， 我 们 考虑 一 个 包含 两 个 变量 
的 EBM 的 例子 ,， 记 p(a,b) 为 其 分 布 。 为 了 采 a,， 我们 必须 先 从 pf(a | b) 中 采样 ; 为 
了 采 b, 我 们 又 必须 从 pz(b | a) 中 采样 。 这 似乎 成 了 环 手 的 先 有 鸡 还 是 先 有 蛋 的 问题 。 
有 向 模型 避免 了 这 一 问题 因为 它 的 图 是 有 向 无 环 的 。 为 了 完成 原始 采样 ( Ancestral 
Sampling )， 在 给 定 每 个 变量 的 所 有 父 结 点 的 条 件 下 ， 我 们 根据 拓扑 顺序 采样 每 一 个 
变量 ， 这 个 变量 是 确定 能 够 被 采样 的 〈 详 见 第 16.3 节 )。 原 始 采样 定义 了 一 种 高 效 
的 、 单 迄 的 方法 来 抽取 一 个 样本 。 

在 EBM 中 ， 我 们 通过 使 用 马尔 可 夫 链 来 采样 ， 从 而 避免 了 先 有 鸡 还 是 先 有 和 蛋 
的 问题 。 马 尔 可 夫 链 的 核心 思想 是 从 某 个 可 取 任 意 值 的 状态 z 出 发 。 随 着 时 间 的 推 
移 ， 我 们 随机 地 反复 更 新 状态 z。 最 终 z 成 为 了 一 个 从 p(z) 中 抽出 的 (非常 接近 ) 
比较 一 般 的 样本 。 在 正式 的 定义 中 ， 马 尔 可 夫 链 由 一 个 随机 状态 zx 和 一 个 转移 分 布 
T(zw | z) 定义 而 成 ，T(z' | z) 是 一 个 概率 分 布 ， 说 明了 给 定 状态 z 的 情况 下 随机 地 
转移 到 允 的 概率 。 运 行 一 个 马尔 可 夫 链 意味 着 根据 转移 分 布 了 (x | 四 采 出 的 值 尺 
来 更 新 状态 z。 

为 了 给 出 MCMC 方法 为 何 有 效 的 一 些 理论 解释 ， 重 参数 化 这 个 问题 是 很 有 用 
的 。 首 先 我 们 关注 一 些 简单 的 情况 ， 其 中 随机 变量 x 有 可 数 个 状态 。 我 们 将 这 种 状 
态 简单 地 记 作 正 整 数 z。 不 同 的 整数 z 的 大 小 对 应 着 原始 问题 中 z 的 不 同 状 态 。 

接 下 来 我 们 考虑 如 果 并 行 地 运行 无 穷 多 个 马尔 可 夫 链 的 情况 。 不 同 马 尔 可 夫 
链 的 所 有 状态 都 采样 自 某 一 个 分 布 vt(z), 在 这 里 二 表 示 消 耗 的 时 间 数 。 开 始 时 ， 对 
每 个 马尔 可 夫 链 ， 我 们 采用 一 个 分 布 g9 来 任意 地 初始 化 rz。 之 后 ，4 与 所 有 之 前 
运行 的 马尔 可 夫 链 有 关 。 我 们 的 目标 是 vto(z) 收敛 到 p(z)。 

因为 我 们 已 经 用 正 整 数 zx 重 参数 化 了 这 个 问题 ， 我 们 可 以 用 一 个 向 量 "来 描述 
这 个 概率 分 布 9， 
































d(X 三 1 三 1 (17.17) 


然后 我 们 考虑 更 新 单一 的 马尔 可 夫 链 ， 从 状态 z 到 新 状态 x'。 单 一 状态 转移 到 
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2/ 的 概率 可 以 表示 为 
daG+D( 3 q (17.18) 





根据 状态 为 整数 的 参数 化 设 定 ， 我 们 可 以 将 转移 算 子 了 表示 成 一 个 矩阵 4。 矮 
阵 4 的 定义 如 下 : 








4 人 (X/ 2 | 区 刀 . (17.19) 


使 用 这 一 定义 ,我 们 可 以 改写 式 (17.18) 。 不 同 于 之 前 使 用 9 和 代 来 理解 单个 状态 的 
更 新 ， 我 们 现在 可 以 使 用 w 和 4 来 描述 当 我 们 更 新 时 〈 并 行 运 行 的 ) 不 同 马尔 可 夫 
链 上 整个 分 布 是 如 何 变化 的 : 








ut 一 4o4D. (17.20) 


重复 地 使 用 马尔 可 夫 链 更 新 相当 于 重复 地 与 矩阵 4 相 乘 。 换 言 之 ,我们 可 以 认为 这 
一 过 程 就 是 关于 4 的 寡 乘 : 





ut 一 4t0(0)， (17.21) 


和 抢 阵 4 有 一 种 特殊 的 结构 ， 因 为 它 的 每 一 列 都 代表 一 个 概率 分 布 。 这 样 的 矩阵 
被 称 为 随机 和 矩阵 ( Stochastic Matrix )。 如 果 对 于 任意 状态 z 到 任意 其 他 状态 z' 存在 
一 个 二 使 得 转移 概率 不 为 0， 那么 Perron-Frobenius 定理 (Perron, 1907; Frobenius， 
1908) 可 以 保证 这 个 和 阵 的 最 大 特征 值 是 实数 且 大 小 为 1。 我 们 可 以 看 到 所 有 的 特征 
值 随 着 时 间 呈 现 指数 变化 : 





=(Vdiag(AJ) YI)tuol = Vdiag( 和 iT Too). (17.22) 

个 过 程 导 致 了 所 有 不 等 于 1 的 特征 值 都 衰减 到 0。 在 一 些 额 外 的 较为 宽松 的 假 

设 下 ， 我 们 可 以 保证 矩阵 4 只 有 一 个 对 应 特征 值 为 1 的 特征 向 量 。 所 以 这 个 过 程 

收敛 到 平稳 分 布 (Stationary Distribution )， 有 时 也 被 称 为 均衡 分 布 (Equilibrium 
Distribution )。 收 银 时 ， 我 们 得 到 

区 一 40= (17.23) 

这 个 条 件 也 适用 于 收敛 之 后 的 每 一 步 。 这 就 是 特征 向 量 方程 。 作 为 收 和 敛 的 稳定 点 ，Yv 

定 是 特征 值 为 1 所 对 应 的 特征 向 量 。 这 个 条 件 保 证 收敛 到 了 平稳 分 布 以 后 ， 再 重 
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复 转 移 采 样 过 程 不 会 改变 所 有 不 同 马尔 可 夫 链 上 状态 的 分 布 (尽管 转移 算 子 自然 而 
然 地 会 改变 每 个 单独 的 状态 )。 

如 果 我 们 正确 地 选择 了 转移 算 子 丰 ， 那 么 最 终 的 平稳 分 布 v 将 会 等 于 我 们 所 硕 
望 采 样 的 分 布 p。 我 们 会 将 第 17.4 节 介绍 如 何 选择 了 。 

可 数 状 态 马尔 可 夫 链 的 大 多 数 性 质 可 以 被 推广 到 连续 状态 的 马尔 可 夫 链 中 。 在 
这 种 情况 下 ， 一 些 研究 者 把 这 种 马尔 可 夫 链 称 为 哈里 斯 链 ( Harris Chain )， 但 是 我 
们 将 这 两 种 情况 都 称 为 马尔 可 夫 链 。 通 党 在 一 些 宽松 的 条 件 下 ， 一 个 带 有 转移 算 子 
的 马尔 可 夫 链 都 会 收敛 到 一 个 不 动 点 ， 这 个 不 动 点 可 以 写成 如 下 形式 ; 








df 人 (Kx = 下 2。oT(x | xx)， (17.24) 














这 个 方程 的 离散 版 本 就 相当 于 重新 改写 方程 式 (17.23) 。 当 x 是 离散 值 时 ， 这 个 期 
望 对 应 着 求 和 ， 而 当 x 是 连续 值 时 ， 这 个 期 望 对 应 的 是 积分 。 

无 论 状态 是 连续 的 还 是 离散 的 ， 所 有 的 马尔 可 夫 链 方法 都 包括 了 重复 、 随 机 地 
更 新 直到 最 后 状态 开始 从 均衡 分 布 中 采样 。 运 行 马尔 可 夫 链 直到 它 达到 均衡 分 布 的 
过 程 通常 被 称 为 马尔 可 夫 链 的 磨合 ( Burning-ipn ) 过 程 。 在 马尔 可 夫 链 达到 均衡 分 
布 之 后 ， 我 们 可 以 从 均衡 分 布 中 抽取 一 个 无 限 多 数量 的 样本 序列 。 这 些 样本 服从 同 
一 分 布 ， 但 是 两 个 连续 的 样本 之 间 会 高 度 相关 。 所 以 一 个 有 限 的 序列 无 法 完全 表 
达 均 衡 分 布 。 一 种 解决 这 个 问题 的 方法 是 每 隔 m” 个 样本 返回 一 个 样本 ， 从 而 使 得 我 
们 对 于 均衡 分 布 的 统计 量 的 估计 不 会 被 MCMC 方法 的 样本 之 间 的 相关 性 所 干扰 。 所 
以 马尔 可 夫 链 的 计算 代价 很 高 ， 主 要 源 于 达到 均衡 分 布 前 需要 磨合 的 时 间 以 及 在 达 
到 均衡 分 布 之 后 从 一 个 样本 转移 到 另 一 个 足够 无 关 的 样本 所 需要 的 时 间 。 如 果 我 们 
想 要 得 到 完全 独立 的 样本 ， 那 么 我 们 可 以 同时 并 行 地 运行 多 个 马尔 可 夫 链 。 这 种 方 
法 使 用 了 额外 的 并 行 计算 来 减少 时 延 。 使 用 一 条 马尔 可 夫 链 来 生成 所 有 样本 的 策略 
和 【使 用 多 条 马尔 可 夫 链 ) 每 条 马尔 可 夫 链 只 产生 一 个 样本 的 策略 是 两 种 极端 。 深 
度 学 习 的 从 业者 们 通常 选取 的 马尔 可 夫 链 的 数目 和 小 批量 中 的 样本 数 相 近 ， 然 后 从 
这 些 固 定 的 马尔 可 夫 链 集合 中 抽取 所 需要 的 样本 。 马 尔 可 夫 链 的 数目 通常 选 为 100。 





























这 段 时 间 通 常 被 称 为 混合 时 间 ( Mixing Time )。 检 测 一 个 马尔 可 夫 链 是 否 达到 平衡 
是 很 困难 的 。 我 们 并 没有 足够 完善 的 理论 来 解决 这 个 问题 。 理 论 只 能 保证 马尔 可 夫 
链 会 最 终 收 剑 ， 但 是 无 法 保证 其 他 。 如 果 我 们 从 矩阵 4 作用 在 概率 向 量 v 上 的 角度 
来 分 析 马 尔 可 夫 链 ， 那 么 我 们 可 以 发 现 当 4 除了 单个 1 以 外 的 特征 值 都 趋 于 0 时 ， 
马尔 可 夫 链 混合 成 功 〈 收 和 敛 到 了 均衡 分 布 )。 这 也 意味 着 矩阵 4 的 第 二 大 特征 值 决 
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定 了 马尔 可 夫 链 的 混合 时 间 。 然 而 , 在 实践 中 , 我 们 通常 不 能 真 的 将 马尔 可 夫 链 表示 
成 矩阵 的 形式 。 我 们 的 概率 模型 所 能 够 达到 的 状态 是 变量 数 的 指数 级 别 ， 所 以 表达 
4 或 者 4 的 特征 值 是 不 现实 的 。 由 于 以 上 在 内 的 诸多 阻碍 , 我 们 通常 无 法 知道 马 
尔 可 夫 链 是 否 已 经 混合 成 功 。 作 为 蔡 代 ， 我 们 只 能 运行 一 定量 时 间 马 尔 可 夫 链 直到 
我 们 粗略 佑 计 这 段 时 间 是 足够 的 ， 然 后 使 用 局 发 式 的 方法 来 判断 马尔 可 夫 链 是 否 混 
合成 功 。 这 些 局 发 性 的 算法 包括 了 手动 检查 样本 或 者 衡量 前 后 样本 之 间 的 相关 性 。 























17.4 _Gibbs 采样 





目前 为 止 我 们 已 经 了 解 了 如 何 通 过 反复 更 新 z 生 ~ 了 (zw | mm) 从 一 个 分 布 
d(z) 中 采样 。 然 而 我 们 还 没有 介绍 过 如 何 确定 g(z) 是 否 是 一 个 有 效 的 分 布 。 本 书 
中 将 会 描述 两 种 基本 的 方法 。 第 一 种 方法 是 从 已 经 学 习 到 的 分 布 pmoasl 中 推导 出 
， 下 文 描述 了 如 何 从 基于 能 量 的 模型 中 采样 。 第 二 种 方法 是 直接 用 参数 朱 述 人 ， 然 
后 学 习 这 些 参 数 ， 其 平稳 分 布 隐 式 地 定义 了 我 们 所 感 兴 趣 的 模型 paoasa。 我 们 将 在 
第 20.12 节 和 第 20.13 节 中 讨论 第 二 种 方法 的 例子 。 

在 深度 学 习 中 ,我 们 通常 使 用 马尔 可 夫 链 从 定义 为 基于 能 量 的 模型 的 分 布 
paodel(Z) 中 采样 。 在 这 种 情况 下 ， 我 们 乔 望 马尔 可 夫 链 的 q(z) 分 布 就 是 pmoasl(z)。 
为 了 得 到 所 期 望 的 g(z) 分 布 ， 我 们 必须 选取 合适 的 T(zx | 四 )。 

Gibbs 采样 (Gibbs Sampling ) 是 一 种 概念 简单 而 又 有 效 的 方法 。 它 构造 一 个 
从 paoael(z) 中 采样 的 马尔 可 夫 链 ， 其 中 在 基于 能 量 的 模型 中 从 宙 (x' | x) 采样 是 通 
过 选择 一 个 变量 xi ， 然 后 从 pmoaa 中 该 点 关于 在 无 向 图 9 (定义 了 基于 能 量 的 模 
型 结构 ) 中 邻接 点 的 条 件 分 布 中 采样 。 只 要 一 些 变量 在 给 定 相 邻 变 量 时 是 条 件 独 立 
的 ， 那 么 这 些 变量 就 可 以 被 同时 采样 。 正 如 在 第 16.7.1 节 中 看 到 的 RBM 示例 一 样 ， 
RBM 中 所 有 的 隐藏 单元 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 可 见 单元 的 条 件 下 它们 相 
互 条 件 独 立 。 同 样 地 ， 所 有 的 可 见 单元 也 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 隐藏 单 
元 的 情况 下 它们 相互 条 件 独 立 。 以 这 种 方式 同时 更 新 许多 变量 的 Gibbs 采样 通常 被 
称 为 块 吉 布 斯 采样 ( block Gibbs Sampling )。 

设计 从 paoasl 中 采样 的 马尔 可 夫 链 还 存在 其 他 备 选 方法 。 比 如 说 ，Metropolis- 
Hastings 算法 在 其 他 领域 中 广泛 使 用 。 不 过 在 深度 学 习 的 无 向 模型 中 ， 我 们 主要 使 
用 Gibbs 采样 ， 很 少 使 用 其 他 方法 。 改 进 采 样 技巧 也 是 一 个 潜在 的 研究 热点 。 
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理想 情况 下 ， 从 设计 好 的 马尔 可 夫 链 中 采 出 的 连续 样本 之 间 是 完全 独立 的 ， 而 且 在 
2 空间 中 ， 马 尔 可 夫 链 会 按 概 率 大 小 访问 许多 不 同 区 域 。 

然而 ，MCMC 方法 采 出 的 样本 可 能 会 具有 很 强 的 相关 性 ， 尤 其 是 在 高 维 的 情况 
下 。 我 们 把 这 种 现象 称 为 慢 混合 甚至 混合 失败 。 具 有 缓慢 混合 的 MCMC 方法 可 以 被 
视 为 对 能 量 本 数 无 意 地 执行 类 似 于 带 噪 声 的 梯度 下 降 的 操作 ， 或 者 说 等 价 于 相对 于 
链 的 状态 〈 被 采样 的 随机 变量 ) 依据 概率 进行 噪声 朴 坡 。 (在 马尔 可 夫 链 的 状态 空 
间 中 ) 从 zt-95 到 zt 该 链 倾向 于 选取 很 小 的 步 长 ， 其 中 能 量 妃 (z(O) 通常 低 于 或 
者 近似 等 于 能 量 妃 (zt-0)， 倾 向 于 向 较 低 能 量 的 区 域 移动 。 当 从 可 能 性 较 小 的 状态 
( 比 来 自 z(z) 的 典型 样本 拥有 更 高 的 能 量 ) 开始 时 ， 链 趋向 于 逐渐 减少 状态 的 能 量 ， 
并 且 仅 仅 偶尔 移动 到 另 一 个 峰值 。 一 旦 该 链 已 经 找到 低能 量 的 区 域 (例如 ,如 果 变 量 
是 图 像 中 的 像素 ， 则 低能 量 的 区 域 可 以 是 同一 对 象 所 对 应 图 像 的 一 个 连通 的 流 形 )， 
我 们 称 之 为 峰值 ， 链 将 倾向 于 围绕 着 这 个 峰值 游 走 〈 按 某 一 种 形式 随机 游 走 )。 它 
时 不 时 会 走出 该 峰值 ， 但 是 结果 通常 会 返回 该 峰值 或 者 (如果 找到 一 条 离开 的 路 线 ) 
移 向 另 一 个 峰值 。 问 题 是 对 于 很 多 有 趣 的 分 布 来 说 成 功 的 离开 路 线 很 少 ， 所 以 马尔 
可 夫 链 将 在 一 个 峰值 附近 抽取 远 超 过 需求 的 样本 。 

当 我 们 考虑 Gibbs 采样 算法 ( 见 第 17.4 节 ) 时 ， 这 种 现象 格外 明显 。 在 这 种 情 
况 下 ， 我 们 考虑 在 一 定 步 数 内 从 一 个 峰值 移动 到 一 个 临近 峰值 的 概率 。 决 定 这 个 概 
率 的 是 两 个 峰值 之 间 的 “能 量 障 碍 ”的 形状 。 隔 着 一 个 巨大 “能 量 障碍 ” ( 低 概率 
的 区 域 ) 的 两 个 峰值 之 间 的 转移 概率 是 〈 随 着 能 量 障 但 的 高 度 ) 指数 下 降 的 ， 如 
图 17.1 所 示 。 当 目标 分 布 有 多 个 高 概率 峰值 并 且 被 低 概率 区 域 所 分 割 ,， 尤其 当 Gibbs 
采样 的 每 一 步 都 只 是 更 新 变量 的 一 小 部 分 而 这 一 小 部 分 变量 又 严重 依赖 其 他 的 变量 
时 ， 就 会 产生 问题 。 

举 一 个 简单 的 例子 ， 考 虑 两 个 变量 a，b 的 基于 能 量 的 模型 ， 这 两 个 变量 都 是 二 
值 的 ， 取 值 +1 或 者 -1。 如 果 对 某 个 较 大 的 正 数 w，E(a,b) = -wab， 那么 这 个 模 
型 传达 了 一 个 强烈 的 信息 ，a 和 b 有 相同 的 符号 。 当 a = 1 时 用 Gibbs 采样 更 新 b。 
给 定 b 时 的 条 件 分 布 满足 ptb =1|a=DH =clw)。 如 果 由 的 值 很 大 ，sigmoid 函 
数 趋 近 于 饱和 ,那么 也 取 到 1 的 概率 趋 近 于 1。 同 理 ， 如 果 a = -1， 那 么 b 取 
到 -1 的 概率 也 趋 于 1。 根 据 模型 pmoaet(a,b)， 两 个 变量 取 一 样 的 符号 的 概率 几乎 相 
等 。 根 据 pmoast(a | b) ， 两 个 变量 应 该 有 相同 的 符号 。 这 也 意味 着 Gibbs 采样 很 难 会 
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图 17.1: 对 于 三 种 分 布 使 用 Gibbs 采样 所 产生 的 路 径 ， 所 有 的 分 布 马尔 可 夫 链 初始 值 都 设 为 峰 
值 。( 左 ) 一 个 带 有 两 个 独立 变量 的 多 维 正 态 分 布 。 由 于 变量 之 间 是 相互 独立 的 ，Gibbs 采样 混合 得 
很 好 。( 中 ) 变量 之 间 存 在 高 度 相 关 性 的 一 个 多 维 正 态 分 布 。 变 量 之 间 的 相关 性 使 得 马尔 可 夫 链 很 
难 混合 。 因 为 每 一 个 变量 的 更 新 需要 相对 其 他 变量 求 条 件 分 布 ， 相 关 性 减 慢 了 马尔 可 夫 链 远离 初 
始点 的 速度 。( 右 ) 峰 值 之 间 间 距 很 大 且 不 在 轴 上 对 齐 的 混合 高 斯 分 布 。Gibbs 采样 混合 得 很 慢 ， 
为 每 次 更 新 仅仅 一 个 变量 很 难 跨越 不 同 的 峰值 。 












































改变 这 些 变量 的 符号 。 

在 更 实际 的 问题 中 ， 这 种 挑战 更 加 艰巨 因为 在 实际 问题 中 我 们 不 能 仅仅 关注 在 
两 个 峰值 之 间 的 转移 ， 更 要 关注 在 多 个 峰值 之 间 的 转移 。 如 果 由 于 峰值 之 间 混 合 困 
难 ， 而 导致 某 几 个 这 样 的 转移 难以 完成 ， 那 么 得 到 一 些 可 靠 的 覆盖 大 部 分 峰值 的 样 
本 集合 的 计算 代价 是 很 高 的 ， 同 时 马尔 可 夫 链 收敛 到 它 的 平稳 分 布 的 过 程 也 会 非常 
缓慢 。 

通过 寻找 一 些 高 度 依赖 变量 的 组 以 及 分 块 同 时 更 新 块 ( 组 ) 中 的 变量 ， 这 个 问 
士 有 时 候 是 可 以 被 解决 的 。 然 而 不 笠 的 是 ， 当 依赖 关系 很 复杂 时 ， 从 这 些 组 中 采样 
的 过 程 从 计算 角度 上 说 是 难以 处 理 的 。 归 根 结 底 ， 马 尔 可 夫 链 最 初 就 是 被 提出 来 解 
决 这 个 问题 ， 即 从 大 量变 量 中 采样 的 问题 。 

在 定义 了 一 个 联合 分 布 pmoaa(z, 六 的 潜 变 量 模型 中 ， 我 们 经 常 通过 交 蔡 地 从 
Pamodel(Z | 娘 和 pmoael( 瑚 | z) 中 采样 来 达到 抽 z 的 目的 。 从 快速 混合 的 角度 上 说 , 我 
们 更 希望 pmodel( 疡 | z) 有 很 大 的 。 然 而 ， 从 学 习 一 个 疡 的 有 用 表示 的 角度 上 考虑 ， 
我 们 还 是 希望 疡 能 够 包含 z 的 足够 信息 从 而 能 够 较 完整 地 重 构 它 ， 这 意味 六 和 z 
要 有 非常 高 的 互信 息 。 这 两 个 目标 是 相互 矛盾 的 。 我 们 经 常 学 习 到 能 够 将 z 精确 地 
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编码 为 产 的 生成 模型 ， 但 是 无 法 很 好 混合 。 这 种 情况 在 玻 尔 效 曼 机 中 经 常 出 现 ， 一 
个 玻 尔 效 曼 机 学 到 的 分 布 越 尖 锐 ， 该 分 布 的 马尔 可 夫 链 采样 越 难 混合 得 好 。 这 个 问 
题 在 图 17.2 中 有 所 描述 。 
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图 17.2: 深度 概率 模型 中 一 个 混合 缓慢 问题 的 例证 。 每 张 图 都 是 按照 从 左 到 右 从 上 到 下 的 顺序 的 。 
( 左 ) Gibbs 采样 从 MNIST 数据 集训 练 成 的 深度 玻 尔 效 曼 机 中 采 出 的 连续 样本 。 这 些 连 续 的 样本 
之 间 非 常 相 似 。 由 于 Gibbs 采样 作用 于 一 个 深度 图 模型 ， 相 似 度 更 多 地 是 基于 语义 而 非 原 始 视觉 
特征 。 但 是 对 于 吉 布 斯 链 来 说 从 分 布 的 一 个 峰值 转移 到 另 一 个 仍然 是 很 困难 的 ， 比 如 说 改变 数字 。 
( 右 ) 从 生成 式 对 抗 网 络 中 抽出 的 连续 原始 样本 。 因 为 原始 采样 生成 的 样本 之 间 互 相 独 立 ， 所 以 不 
存在 混合 问题 。 















































当 感 兴趣 的 分 布 对 于 每 个 类 具有 单独 的 流 形 结构 时 ， 所 有 这 些 问 题 都 
使 MCMC 方法 变 得 不 那么 有 用 : 分 布 集中 在 许多 峰值 周 靖 ， 并 且 这 些 峰 值 由 大 量 高 
能 量 区 域 分 割 。 我 们 在 许多 分 类 问题 中 遇 到 的 是 这 种 类 型 的 分 布 ， 由 于 峰值 之 间 混 
合 缓慢 ， 它 将 使 得 MCMSC 方法 非常 缓慢 地 收敛 。 


17.5.1 不同 峰 值 之 间 通 过 回 火 来 混合 


当 一 个 分 布 有 一 些 陡 峭 的 峰 并 且 被 低 概率 区 域 包 围 时 ， 很 难 在 分 布 的 不 同 峰 
值 之 间 混 合 。 一 些 加 速 混合 的 方法 是 基于 构造 一 个 概率 分 布 人 符 代目 标 分 布 ， 这 个 概 
率 分 布 的 峰值 没有 那么 高 ， 峰 值 周围 的 低谷 也 没有 那么 低 。 基 于 能 量 的 模型 为 这 个 
想法 提供 一 种 简单 的 做 法 。 目 前 为 止 ， 我 们 一 直 将 基于 能 量 的 模型 描述 为 定义 一 个 
概率 分 布 : 


D(Z) cc exp( 一 己 (z)). (17.25) 
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基于 能 量 的 模型 可 以 通过 添加 一 个 额外 的 控制 峰值 尖锐 程度 的 参数 8 来 加 强 : 





pe(Z) co exp( 一 0 三 (z)). (17.20) 


人 6 参数 可 以 被 理解 为 温度 (temperature ) 的 倒数 ， 反 映 了 基于 能 量 的 模型 的 统计 物 
理学 起 源 。 当 温度 趋 近 于 0 时 ，8 趋 近 于 无 穷 大 ， 此 时 的 基于 能 量 的 模型 是 确定 性 
的 。 当 温度 趋 近 于 无 穷 大 时 ，2 趋 近 于 零 ， 基 于 能 量 的 模型 ( 对 离散 的 z ) 成 了 均匀 
分 布 。 

通常 情况 下 , 在 6 = 1 时 训练 一 个 模型 。 但 我 们 也 可 以 利用 其 他 温度 ， 尤 其 是 
8 < 1 的 情况 。 回 火 (tempering ) 作为 一 种 通用 的 策略 ， 它 通过 从 8 < 1 模型 中 采 
样 来 实现 在 pl 的 不 同 峰 值 之 间 快 速 混合 。 

基于 回 火 转移 (tempered transition ) (Neal, 1994) 的 马尔 可 夫 链 临时 从 高 温 
度 的 分 布 中 采样 使 其 在 不 同 峰 值 之 间 混 合 ， 然 后 继续 从 单位 温度 的 分 布 中 采样 。 这 
些 技巧 被 应 用 在 一 些 模型 比如 RBM 中 (Salakhutdinov, 2010)。 另 一 种 方法 是 利用 并 
行 回 火 (parallel tempering ) (Iba, 2001)。 其 中 马尔 可 夫 链 并 行 地 模拟 许多 不 同 温 
度 的 不 同 状 态 。 最 高 温度 的 状态 混合 较 慢 ， 相 比 之 下 最 低温 度 的 状态 ， 即 温度 为 1 
时 ， 采 出 了 精确 的 样本 。 转 移 算 子 包 括 了 两 个 温度 之 间 的 随机 跳 转 ， 所 以 一 个 高 温 
度 状 态 分 布 模 中 的 样本 有 足够 大 的 概率 跳 转 到 低温 度 分 布 的 权 中 。 这 个 方法 也 被 应 
用 到 了 RBM 中 (Desjardins et w/.,，2010; Cho et al., 2010a)。 尽 管 回 火 这 种 方法 前 景 
可 期 , 现今 它 仍然 无 法 让 我 们 在 采样 复杂 的 基于 能 量 的 模型 中 更 进一步 。 一 个 可 能 的 
原因 是 在 临界 温度 (critical temperatures ) 时 温度 转移 算 子 必须 设置 得 非常 慢 人 
为 温度 需要 逐渐 下 降 ) 来 确保 回 火 的 有 效 性 。 




















17.5.2 ”深度 也 许 会 有 助 于 混合 


当 我 们 从 潜 变 量 模型 p( 刀 zj) 中 采样 时 ， 我 们 可 以 发 现 如 果 p( 疡 | 四 将 z 编码 
得 非常 好 ， 那 么 从 pz(z | 站 中 采样 时 ， 并 不 会 太 大 地 改变 z， 那 么 混合 结果 会 很 粳 
糕 。 解 决 这 个 问题 的 一 种 方法 是 使 得 疡 成 为 一 种 将 z 编码 为 六 的 深度 表示 ， 从 而 使 
得 马尔 可 夫 链 在 疡 空间 中 更 容易 混合 。 在 许多 表示 学 习 算 法 如 自 编码 器 和 RBM 中 ， 
玉 的 边缘 分 布 相 比 于 z 上 的 原始 数据 分 布 ， 通 党 表现 为 更 加 均匀 、 更 趋 近 于 单 峰 值 。 
或 许可 以 说 ， 这 是 因为 利用 了 所 有 可 用 的 表示 空间 并 尽量 减 小 重 构 误 差 。 因 为 当 训 
练 集 上 的 不 同样 本 之 间 在 疡 空间 能 够 被 非常 容易 地 区 分 时 ， 我 们 也 会 很 容易 地 最 
小 化 重 构 误 差 。Bengio et al. (2013a) 观察 到 这 样 的 现象 ， 堆 受 越 深 的 正则 化 自 编码 
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器 或 者 RBM， 顶 端 疡 空间 的 边缘 分 布 越 趋向 于 均匀 和 发 散 ， 而 且 不 同 峰 值 (比如 

说 实验 中 的 类 别 ) 所 对 应 区 域 之 间 的 间距 也 会 越 小 。 在 高 层 空间 中 训练 RBM 会 使 

得 Gibbs 采样 在 峰值 间 混 合 得 更 快 。 然 而 ， 如 何 利用 这 种 观察 到 的 现象 来 辅助 训练 
深度 生成 模型 或 者 从 中 采样 仍然 有 竺 探索 。 

尽管 存在 混合 的 难点 ， 蒙 特 卡 罗技 术 仍然 是 一 个 有 用 的 工具 ， 通 常 也 是 最 好 的 

可 用 工具 。 事 实 上 ， 在 遇 到 难以 处 理 的 无 向 模型 中 的 配 分 冰 数 时 ， 蒙 特 卡 罗 方 法 仍 
然 是 最 主要 的 工具 ， 这 将 在 下 一 章 详细 阐述 
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在 第 16.2.2 节 中 ， 我 们 看 到 许多 概率 模型 (通常 是 无 向 图 模型 ) 由 一 个 未 归 一 
化 的 概率 分 布 jx,b) 定义 。 我 们 必须 通过 除 以 配 分 函数 32(6) 来 归 一 化 方 以 获得 


一 个 有 效 的 概率 分 布 : 


人 二 而 全 多 (18.1) 
配 分 函数 是 未 归 一 化 概率 所 有 状态 的 积分 (对 于 连续 变量 ) 或 求 和 ( 对 于 离散 变量 ): 
Ja (18.2) 

或 者 
六 :大 到 : (18.3) 


对 于 很 多 有 趣 的 模型 而 言 ， 以 上 积分 或 求 和 难以 计算 。 

正如 我 们 将 在 第 二 十 章 看 到 的 ， 有 些 座 度 学 习 模 型 被 设计 成 具有 一 个 易于 处 理 
的 归 一 化 常数 ， 或 被 设计 成 能 够 在 不 涉及 计算 p(x) 的 情况 下 使 用 。 然 而 ， 其 他 一 些 
模型 会 直接 面 对 难 以 计算 的 配 分 函数 的 挑战 。 在 本 章 中 ， 我 们 会 介绍 用 于 训练 和 评 
估 那 些 具有 难以 处 理 的 配 分 函数 的 模型 的 技术 。 








18.1 “对 数 似 然 梯度 


通过 最 大 似 然 学 习 无 向 模型 特别 困难 的 原因 在 于 配 分 函数 依赖 于 参数 。 对 数 似 
然 相 对 于 参数 的 梯度 具有 一 项 对 应 于 配 分 困 数 的 梯度 : 


Velogp(x;0) =Velog5Px;i0) 一 Velog2(0). (18.4) 
516 
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这 是 机 器 学 习 中 非常 著名 的 正 相 (positive phase ) 和 负 相 (negative phase ) 的 
分 解 。 


对 于 大 多 数 感 兴趣 的 无 向 模型 而 言 ， 负 相 是 困难 的 。 没 有 讨 变 量 或 潜 变 量 之 间 
很 少 相互 作用 的 模型 通常 会 有 一 个 易于 计算 的 正 相 。RBM 的 隐藏 单元 在 给 定 可 见 单 
元 的 情况 下 彼此 条 件 独 立 ， 是 一 个 典型 的 具有 简单 正 相 和 困难 负 相 的 模型 。 正 相 计 
和 洲 变 量 之 问 共有 复杂 相互 作用 的 情况 将 主要 在 第 十 九 章 中 讨论 。 本 章 主要 











让 我 们 进一步 分 析 log 2 的 梯度 : 

















VologZ (18.5) 

_ 。 (18.6) 

四 和 (18.7) 

到 (8.9) 

对 于 保证 所 有 的 x 都 有 p(x) > 0 的 模型 ， 我 们 可 以 用 exp(log jx)) 代替 Pix): 
SN 的 (18.9) 

2 人 (18.10) 

中 ys log8 ZX) (18.11) 

三 二 )Volog px (18.12) 

一 下 。oooVelog5lx)， (18.13) 











上 述 推导 对 离散 的 z 进行 求 和 ， 对 连续 的 z 进行 积分 也 可 以 得 到 类 似 结果 。 在 
连续 版 本 的 推导 中 ， 使 用 在 积分 符号 内 取 微 分 的 莱 布 尼 北 法则 可 以 得 到 等 式 


vs |/ 有 |/ 人 (8.14) 


ee 万 和 Vepi(x) 上 的 一 些 特 定 规范 条 件 。 在 测度 论 术 语 中 ， 这 些 条 件 
: (1 ) 对 每 一 个 O 而 言 ， 未 归 一 一 化 分 布 万 ， 必须 是 化 的 勒 由 格 可 积 入 弛 | 困 数 。 (2 ) 对 于 所 
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有 的 9 和 几乎 所 有 z， 梯 度 VeP(x) 必须 存在 。(3) 对 于 所 有 的 9 和 几乎 所 有 的 z， 
必须 存在 一 个 可 积 函 数 尽 (z) 使 得 maxi| 芒 六 xj| < 尽 (z)。 吉 运 的 是 ， 大 多 数 感 兴趣 
的 机 器 学 习 模型 都 具有 这 些 性 质 。 

等 式 

















Velog2 = 下 pooVelog5(x) (18.15) 

是 使 用 各 种 蒙特 卡 罗 方 法 近似 最 大 化 (具有 难 计算 配 分 困 数 模型 的 ) 似 然 的 基础 。 

蒙特 卡 罗 方 法 为 学 习 无 向 模型 提供 了 直观 的 框架 , 我 们 能 够 在 其 中 考虑 正 相 和 负 
相 。 在 正 相 中 ， 我 们 增 大 从 数据 中 采样 得 到 的 log 刘 x)。 在 负 相 中 ， 我 们 通过 降低 从 
模型 分 布 中 采样 的 log 5(x) 来 降低 配 分 函数 。 

在 深度 学 习 文献 中 ， 经 常会 看 到 用 能 量 函 数 ( 式 (16.7) ) 来 参数 化 logP。 在 这 
种 情况 下 ， 正 相 可 以 解释 为 压低 训练 样本 的 能 量 ， 负 相 可 以 解释 为 提高 模型 抽出 的 
样本 的 能 量 ， 如 岁 18.1 所 示 。 
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实现 式 (18.15) 的 一 个 朴素 方法 是 ， 每 次 需要 计算 梯度 时 ， 磨 合 随机 初始 化 的 一 
组 马尔 可 夫 链 。 当 使 用 随机 梯度 下 降 进 行 学 习 时 ， 这 意味 着 马尔 可 夫 链 必须 在 每 次 
梯度 步骤 中 磨合 。 这 种 方法 引导 下 的 训练 过 程 如 算法 18.1 所 示 。 内 循环 中 磨合 马尔 
可 夫 链 的 计算 代价 过 高 ， 导 致 这 个 过 程 在 实际 中 是 不 可 行 的 ， 但 是 这 个 过 程 是 其 他 
更 加 实际 的 近似 算法 的 基础 。 

我 们 可 以 将 最 大 化 似 然 的 MCMC 方法 视 为 在 两 种 力 之 间 平 衡 ， 一 种 力 拉 高 数据 
出 现时 的 模型 分 布 ， 一 种 拉 低 模型 采样 出 现时 的 模型 分 布 。 图 18.1 展示 了 这 个 过 程 。 
这 两 种 力 分 别 对 应 最 大 化 log 方 和 最 小 化 log 2Z。 对 于 负 相 会 有 一 些 近 似 方法 。 这 些 
近似 都 可 以 被 理解 为 使 负 相 更 容易 计算 ， 但 是 也 可 能 将 其 推 向 错误 的 位 置 。 

因为 负 相 涉及 到 从 模型 分 布 中 抽样 ， 所 以 我 们 可 以 认为 它 在 找 模型 信任 度 很 高 
的 点 。 因 为 负 相 减 少 了 这 些 点 的 概率 ,它们 一 般 被 认为 代表 了 模型 不 正确 的 信念 。 在 
文献 中 , 它们 经 常 被 称 为 “ 约 觉 ”或 “幻想 粒子 "。 事 实 上 , 负 相 已 经 被 作为 人 类 和 其 
他 动物 做 梦 的 一 种 可 能 解释 (Crick and Mitchison, 1983)。 这 个 想法 是 说 ， 大 脑 维持 
着 世界 的 概率 模型 ， 并 且 在 醒 着 经 历 真实 事件 时 会 遵循 log 万 的 梯度 ， 在 睡觉 时 会 遵 
循 log 方 的 负 梯度 最 小 化 log 2G， 其 经 历 的 样本 采样 自 当 前 的 模型 。 这 个 视角 解释 了 
具有 正 相 和 负 相 的 大 多 数 算法 ， 但 是 它 还 没有 被 神经 科学 实验 证 明 是 正确 的 。 在 机 
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算法 18.1 一 种 朴素 的 MCMC 算法 ， 使 用 梯度 上 升 最 大 化 具有 难以 计算 配 分 函数 的 
对 数 似 然 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 上 大 到 足以 允许 磨合 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 100。 
while 不 收敛 do 
从 训练 集中 采 包 含 mm 个 样本 {x0,……,xe7} 的 小 批量 。 
g 生 二 1Ve log P(x49; 0). 
初始 化 mm 个 样本 { 低 风 ,…. , 文 ”)} 为 随机 值 ( 例 如， 从 均匀 或 正 态 分 布 中 采 , 或 
大 致 与 模型 边缘 分 布匹 配 的 分 布 )。 
for =1toKdo 


for 7 三 1tom do 





文 9) 4 gibbs_update( 文 9))， 
end for 
end for 
gg 和 gg 一 二 VologPX0O;0). 
0 二 0 十 cg. 


end while 











器 学 习 模 型 中 ， 通 常 有 必要 同时 使 用 正 相 和 负 相 ， 而 不 是 按 不 同时 间 阶 段 分 为 清醒 
和 REM 睡眠 时 期 。 正 如 我 们 将 在 第 19.5 节 中 看 到 的 ， 一 些 其 他 机 器 学 习 算 法 出 于 
其 他 原因 从 模型 分 布 中 采样 ， 这 些 算法 也 能 提供 睡觉 做 梦 的 解释 。 

这 样 理解 学 习 正 相 和 负 相 的 作用 之 后 ,我们 设计 了 一 个 比 算法 18.1 计算 代价 更 
低 的 蔡 代 算法 。 简 单 的 MCMSC 算法 的 计算 成 本 主要 来 自 每 一 步 的 随机 初始 化 磨合 马 
尔 可 夫 链 。 一 个 自然 的 解决 方法 是 初始 化 马尔 可 夫 链 为 一 个 非常 接近 模型 分 布 的 分 
布 ， 从 而 大 大 减少 磨合 步 又 。 

对 比 散 度 (CD ， 或 者 是 具有 有 个 Gibbs 步骤 的 CD-K ) 算法 在 每 个 步骤 中 初始 
化 马尔 可 夫 链 为 采样 自 数据 分 布 中 的 样本 (Hinton, 2000, 2010)， 如 算法 18.2 所 示 。 
从 数据 分 布 中 获取 样本 是 计算 代价 最 小 的 , 因为 它们 已 经 在 数据 集中 了 。 初 始 时 , 数 
据 分 布 并 不 接近 模型 分 布 ， 因 此 负 相 不 是 非常 准确 。 幸 和 运 的 是 ， 正 相 仍然 可 以 准确 
地 增加 数据 的 模型 概率 。 进 行 正 相 阶 段 一 段 时 间 之 后 ， 模 型 分 布 会 更 接近 于 数据 分 
布 ， 并 且 负 相 开 始 变 得 准确 。 

当然 ，CD 仍然 是 真实 负 相 的 一 个 近似 。CD 未 能 定性 地 实现 真实 负 相 的 主要 原 
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图 18.1: 算法 18.1 角度 的 “ 正 相 ”和 “ 负 相 ”。( 左 ) 在 正 相 中 ， 我 们 从 数据 分 布 中 采样 ， 然 后 推 高 
它们 未 归 一 化 的 概率 。 这 意味 着 概率 越 高 的 数据 点 未 归 一 化 的 概率 被 推 高 得 越 多 。( 右 ) 在 负 相 中 ， 
我 们 从 模型 分 布 中 采样 ， 然 后 压低 它们 未 归 一 化 的 概率 。 这 与 正 相 的 倾向 相反 ， 给 未 归 一 化 的 概 
率 处 处 添加 了 一 个 大 常数 。 当 数据 分 布 和 模型 分 布 相 等 时 ， 正 相 推 高 数据 点 和 负 相 压低 数据 点 的 
机 会 相等 。 此 时 ， 不 再 有 任何 的 梯度 (期望 上 说 )， 训 练 也 必须 停止。 




















因 是 ， 它 不 能 抑制 远离 真实 训练 样本 的 高 概率 区 域 。 这 些 区 域 在 模型 上 具有 高 概率 ， 
但 是 在 数据 生成 区 域 上 具有 低 概率 ， 被 称 为 虚假 模 态 ( spurious modes )。 图 18.2 解 
释 了 这 种 现象 发 生 的 原因 。 基 本 上 ， 除 非 & 非常 大 ， 模 型 分 布 中 远离 数据 分 布 的 峰 
值 不 会 被 使 用 训练 数据 初始 化 的 马尔 可 夫 链 访问 到 。 

Carreira-Perp 庆 an and Hinton (2005) 实验 上 证 明 CD 估计 偏向 于 RBM 和 完全 
可 见 的 玻 尔 效 曼 机 ， 因 为 它 会 收敛 到 与 最 大 似 然 估 计 不 同 的 点 。 他 们 认为 ， 由 于 偏 
差 较 小 ，CD 可 以 作为 一 种 计算 代价 低 的 方式 来 初始 化 模型 ， 之 后 可 以 通过 计算 代价 
高 的 MCMC 方 法 进行 精 调 。Bengio and Delalleau (2009) 表明 ，CD 可 以 被 理解 为 去 
掉 了 正确 MCMC 梯度 更 新 中 的 最 小 项 ， 这 解释 了 偏差 的 由 来 。 

在 训练 诸如 RBM 的 浅 层 网 络 时 CD 是 很 有 用 的 。 反 过 来 ， 这 些 可 以 堆 和 琶 起 来 初 
始 化 更 深 的 模型 , 如 DBN 或 DBM。 但 是 CD 并 不 直接 有 助 于 训练 更 深 的 模型 。 这 是 
因为 在 给 定 可 见 单元 样本 的 情况 下 ， 很 难 获得 隐藏 单元 的 样本 。 由 于 隐藏 单元 不 包 
括 在 数据 中 ， 所 以 使 用 训练 点 初始 化 无 法 解决 这 个 问题 。 即 使 我 们 使 用 数据 初始 化 
可 见 单元 ， 我 们 仍然 需要 磨合 在 给 定 这些 可 见 单元 的 隐藏 单元 条 件 分 布 上 采样 的 马 
尔 可 夫 链 。 


CD 算法 可 以 被 理解 为 惩罚 某 类 模型 ， 这 类 模型 的 马尔 可 夫 链 会 快速 改变 来 自 数 
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算法 18.2 对 比 散 度 算 法 ， 使 用 梯度 上 升 作 为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 上 大 到 足以 让 从 paata 初始 化 并 从 p(x; 9) 采样 的 马尔 可 夫 链 混合 。 
在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1-20。 
while 不 收敛 do 
从 训练 集中 采 包 含 mm 个 样本 { 长 由, ,x6o2))} 的 小 批量 。 
g 生 十 人 Volog5x(;0). 
for 一 lto7m do 








文人 ) 4 芭 (G). 
end for 
for =1toKdo 
for 7 三 1to7m do 
文 O) 4 gibbs_update( 文 让 )). 
end for 
end for 
g 人 gg 一 二 姜 ,Volog5XO;9). 
0 二 0 十 cg. 


end while 





据 的 输入 。 这 意味 着 使 用 CD 训练 从 某 种 程度 上 说 类 似 于 训练 自 编 码 器 。 即 使 CD 佑 
计 比 一 些 其 他 训练 方法 具有 更 大 偏差 ， 但 是 它 有 助 于 预 训 练 之 后 会 堆 琶 起 来 的 浅 层 
模型 。 这 是 因为 堆栈 中 最 早 的 模型 会 受 激励 复制 更 多 的 信息 到 其 潜 变 量 ， 使 其 可 用 
于 随后 的 模型 。 这 应 该 更 多 地 被 认为 是 CD 训练 中 经 常 可 利用 的 副产品 ， 而 不 是 主要 
的 设计 优势 。 

Sutskever and Tieleman (2010) 表明 ，CD 的 更 新 方向 不 是 任何 郴 数 的 梯度 。 这 
使 得 CD 可 能 存在 永久 循环 的 情况 ， 但 在 实践 中 这 并 不 是 一 个 严重 的 问题 。 

另 一 个 解决 CD 中 许多 问题 的 不 同 策略 是 ， 在 每 个 梯度 步骤 中 初始 化 马尔 可 夫 
链 为 先前 梯度 步骤 的 状态 值 。 这 个 方法 首先 被 应 用 数学 和 统计 学 社 群 发 现 ， 命 名 
为 随机 最 大 似 然 (SML ) (Younes, 1998)， 后 来 又 在 深度 学 习 社 群 中 以 名 称 持续 性 对 
比 散 度 (PCD ， 或 者 每 个 更 新 中 具有 个 Gibbs 步 又 的 PCD-k ) 独立 地 被 重新 发 
现 (Tieleman, 2008)。 具 体 可 以 参考 算法 18.3 。 这 种 方法 的 基本 思想 是 ， 只 要 随机 梯 
度 算法 得 到 的 步 长 很 小 ,那么 前 一 步骤 的 模型 将 类 似 于 当前 步骤 的 模型 。 因 此 , 来 
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图 18.2: 一 个 虚假 模 态 。 说 明 对 比 散 度 (算法 18.2 ) 的 负 相 为 何 无 法 抑制 虚假 模 态 的 例子 。 一 个 虚 
假 模 态 指 的 是 一 个 在 模型 分 布 中 出 现 数据 分 布 中 却 不 存在 的 模式 。 由 于 对 比 散 度 从 数据 点 中 初始 
化 它 的 马尔 可 夫 链 然后 仅仅 运行 了 几 步 马尔 可 夫 链 , 不 太 可 能 到 达 模 型 中 离 数 据点 较 远 的 模式 。 这 
意味 着 从 模型 中 采样 时 ， 我 们 有 时 候 会 得 到 一 些 与 数据 并 不 相似 的 样本 。 这 也 意味 着 由 于 在 这 些 
模式 上 浪费 了 一 些 概 率 质 量 ， 模 型 很 难 把 较 高 的 概率 质量 集中 于 正确 的 模式 上 。 出 于 可 视 化 的 目 
的 ， 这 个 图 使 用 了 某 种 程度 上 说 更 加 简单 的 距离 的 概念 一 一 在 及 的 数 轴 上 虚假 模 态 与 正确 的 模式 
有 很 大 的 距离 。 这 对 应 着 基于 局 部 移动 及 上 的 单个 变量 z 的 马尔 可 夫 链 。 对 于 大 部 分 深度 概率 模 
型 来 说 ， 马 尔 可 夫 链 是 基于 Gibbs 采样 的 ， 并 且 对 于 单个 变量 产生 非 局 部 的 移动 但 是 无 法 同时 移 
动 所 有 的 变量 。 对 于 这 些 问 题 来 说 ,考虑 编辑 距离 比 欧 式 距离 通常 更 好 。 然 而 ， 高 维 空间 的 编辑 距 
离 很 难 在 二 维 空间 作 图 展示 。 
















































































自 先前 模型 分 布 的 样本 将 非常 接近 来 自 当 前 模型 分 布 的 客观 样本 ， 用 这 些 样 本 初始 
化 的 马尔 可 夫 链 将 不 需要 花费 很 多 时 间 来 完成 混合 。 

因为 每 个 马尔 可 夫 链 在 整个 学 习 过 程 中 不 断 更 新 ， 而 不 是 在 每 个 梯度 步 又 中 重 
新 开始 , 马尔 可 夫 链 可 以 自由 探索 很 远 , 以 找到 模型 的 所 有 峰值 。 因 此,SML 比 CD 更 
不 容易 形成 具有 虚假 模 态 的 模型 。 此 外 ， 因 为 可 以 存储 所 有 采样 变量 的 状态 ， 无 论 
是 可 见 的 还 是 潜在 的 ，SML 为 隐藏 单元 和 可 见 单元 都 提供 了 初始 值 。CD 只 能 为 可 
见 单元 提供 初始 化 ， 因 此 深度 模型 需要 进行 磨合 步 又。SML 能 够 高 效 地 训练 深度 模 
型 。Marlin et ao/. (2010) 将 SMIL 与 本 章 中 提出 的 许多 其 他 标准 方法 进行 比较 。 他 们 
发 现 ，SML 在 RBM 上 得 到 了 最 佳 的 测试 集 对 数 似 然 ， 并 且 如 果 RBM 的 隐藏 单元 被 
用 作 SVM 分 类 器 的 特征 ,那么 SML 会 得 到 最 好 的 分 类 精度 。 

在 大 太 小 或 e 太 大 时 ， 随 机 梯度 算法 移动 模型 的 速率 比 马 尔 可 夫 链 在 迭代 步 
中 混合 更 快 ， 此 时 SMIL 容易 变 得 不 准确 。 不 幸 的 是 ， 这 些 值 的 容许 范围 高 度 依赖 
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算法 18.3 随机 最 大 似 然 /持续 性 对 比 散 度 算 法 ， 使 用 梯度 上 升 作 为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 大 大 到 足以 让 从 p(x; 9 十 eg) 采样 的 马尔 可 夫 链 磨合 (从 采 自 px; g) 
的 样本 开始 )。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1， 对 于 更 复杂 的 模型 如 深度 
玻 尔 效 曼 机 可 能 要 设 为 5 到 50。 
初始 化 mm 个 样本 { 信 由, …. , 文 ()} 为 随机 值 (例如 ， 从 均匀 或 正 态 分 布 中 采 ， 或 大 
致 与 模型 边缘 分 布匹 配 的 分 布 )。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 { 攻 0) ,xm)} 的 小 批量 。 
g 生 寺 > 六 Ve log 5(xGD; 0). 
for =1toKdo 


for 7 三 1to7m do 





文 9) 4 gibbs_update( 文 9))， 
end for 
end for 
gg 一 二 守 忆 VologF0;9). 
0 二 0 十 cg. 


end while 





于 具体 问题 。 现 在 还 没有 方法 能 够 正式 地 测试 马尔 可 夫 链 是 否 能 够 在 欠 代 步骤 之 间 
成 功 混合 。 主 观 地 ， 如 果 对 于 Gibbs 步 又 数目 而 言 学 习 率 太 大 的 话 ， 那 么 梯度 步骤 
中 负 相 采样 的 方差 会 比 不 同 马尔 可 夫 链 中 负 相 采样 的 方差 更 大 。 例 如 ， 一 个 MNIST 
模型 在 一 个 步骤 中 只 采样 得 到 了 7。 然 后 学 习 过 程 将 会 极 大 降低 7 对 应 的 峰值 ， 在 
下 一 个 步骤 中 ， 模 型 可 能 会 只 采样 得 到 9。 

从 使 用 SML 训练 的 模型 中 评估 采样 必须 非常 小 心 。 在 模型 训练 完 之 后 ， 有 必要 
从 一 个 随机 起 点 初始 化 的 新 马尔 可 夫 链 抽取 样本 。 用 于 训练 的 连续 负 相 链 中 的 样本 
受到 了 模型 最 近 几 个 版 本 的 影响 ， 会 使 模型 看 起 来 具有 上 比 其 实际 更 大 的 容量 。 

Berglund and Raiko (2013) 进行 了 实验 来 检验 由 CD 和 SML 进行 梯度 估计 带 来 
的 偏差 和 方差 。 结 果 证 明 CD 比 基 于 精确 采样 的 估计 具有 更 低 的 方差 。 而 SML 有 更 
高 的 方差 。CD 方差 低 的 原因 是 ， 其 在 正 相 和 负 相 中 使 用 了 相同 的 训练 点 。 如 果 从 不 
同 的 训练 点 来 初始 化 负 相 ， 那 么 方差 会 比 基 于 精确 采样 的 估计 的 方差 更 大 。 
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所 有 基于 MCMC 从 模型 中 抽取 样本 的 方法 在 原则 上 几乎 可 以 与 MCMC 的 任何 
变 体 一 起 使 用 。 这 意味 着 诸如 SML 这 样 的 技术 可 以 使 用 第 十 七 章 中 描述 的 任何 增 
强 MCMSC 的 技术 〈 例如 并 行 回 火 ) 来 加 以 改进 (Desjardins et aol., 2010; Cho et al 
2010b)。 

一 种 在 学 习 期 间 加 速 混合 的 方法 是 , 不 改变 蒙特 卡 罗 采 样 技术 , 而 是 改变 模型 的 
参数 化 和 代价 函数 。 快 速 持续 性 对 比 散 度 〈fast persistent contrastive divergence )， 
或 者 FPCD (Tieleman and Hinton, 2009) 使 用 如 下 表达 式 去 替换 传统 模型 的 参数 0 


0 =Oeow) 二 0desb， (18.16) 


现在 的 参数 是 以 前 的 两 倍 多 ， 将 其 逐个 相 加 以 定义 原始 模型 的 参数 。 快 速 复 制 参数 
可 以 使 用 更 大 的 学 习 率 来 训练 , 从 而 使 其 快速 响应 学 习 的 负 相 , 并 促使 马尔 可 夫 链 探 
索 新 的 区 域 。 这 能 够 使 马尔 可 夫 链 快速 混合 ， 尽 管 这 种 效应 只 会 发 生 在 学 习 期 间 快 
速 权重 可 以 自由 改变 的 时 候 。 通 常 ， 在 短 时 间 地 将 快速 权重 设 为 大 值 并 保持 足够 长 
时 间 ， 使 马尔 可 夫 链 改变 峰值 之 后 ， 我 们 会 对 快速 权重 使 用 显著 的 权重 衰减 ， 促 使 
它们 收敛 到 较 小 的 值 。 

丁 介绍 的 基于 MCMC 的 方法 的 一 个 关键 优点 是 它们 提供 了 log 2 梯度 的 佑 
计 ， 因 此 我 们 可 以 从 本 质 上 将 问题 分 解 为 log 方 和 log 2 两 块 。 然 后 我 们 可 以 使 用 任 
何其 他 的 方法 来 处 理 log 5(x)， 只 需 将 我 们 的 负 相 梯度 加 到 其 他 方法 的 梯度 中 。 特 别 
地 ,这 意味 着 正 相 可 以 使 用 那些 仅 提 供 斑 下 限 的 方法 。 然 而 , 本 章 介绍 处 理 log 2 的 
大 多 数 其 他 方法 都 和 基于 边界 的 正 相 方法 是 不 兼容 的 。 





























18.3 ” 伪 似 然 








蒙特 卡 罗 近 似 配 分 函数 及 其 梯度 需要 直接 处 理 配 分 困 数 。 有 些 其 他 方法 通过 训 
练 不 需要 计算 配 分 函数 的 模型 来 绕 开 这 个 问题 。 这 些 方法 大 多 数 都 基于 以 下 观察 : 
无 向 概率 模型 中 很 容易 计算 概率 的 比率 。 这 是 因为 配 分 轴 数 同时 出 现在 比率 的 分 子 
和 分 母 中 ， 互 相抵 消 : 





D(x) 


D(y) 


伪 似 然 正 是 基于 条 件 概率 可 以 采用 这 种 基于 比率 的 形式 ， 因 此 可 以 在 没有 配 分 
函数 的 情况 下 进行 计算 。 假 设 我 们 将 x 分 为 a，b 和 c， 其 中 a 包含 我 们 想 要 的 条 





三 生 二 (18.17) 
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件 分 布 的 变量 ，b 包含 我 们 想 要 条 件 化 的 变量 ，c 包含 除 此 之 外 的 变量 : 
ab pem ab 人 
全 人 
以 上 计算 需要 边缘 化 a， 假 设 a 和 ec 包含 的 变量 并 不 多 ， 那 么 这 将 是 非常 高 效 的 操 
作 。 在 极端 情况 下 ，& 可 以 是 单 不 变量 ，e 可 以 为 空 ， 那 么 该 计算 仅 需要 估计 与 音 

个 随机 变量 值 一 样 多 的 方 

不 幸 的 是 ， 为 了 计算 对 数 似 然 ， 我 们 需要 边缘 化 很 多 变量 。 如 果 总 共有 7 个 变 

量 ， 那 么 我 们 必须 边缘 化 双 = 1 个 变量 。 根 据 概 率 的 链 式 法 则 ， 我 们 有 








logp(x) =logp(zi) 十 logp(za | Z1) 十 … 十 logp(zn | xl:n 1). (18.19) 
在 这 种 情况 下 ,我 们 已 经 使 a 尽 可 能 小 ,但 是 c 可 以 大 到 xzwe 如 果 我 们 简单 地 将 c 移 


到 b 中 以 减少 计算 代价 , 那么 会 发 生 什 么 呢 ? 这 便 产 生 了 伪 似 然 (pseudolikelihood ) 
(Besag, 1975) 目 标 函 数 ， 给 定 所 有 其 他 特征 ※_;， 预 测 特征 mx 的 值 : 





>》 logp(zi | z 让) (18.20) 
3 


如 果 每 个 随机 变量 有 大 个 不 同 的 值 ， 那 么 计算 方 需要 有 xm 次 估计 ， 而 计算 配 
分 函数 需要 各 次 估计 。 

这 看 起 来 似乎 是 一 个 没有 道理 的 策略 ， 但 可 以 证 明 最 大 化 伪 似 然 的 估计 是 渐 近 
一 致 的 (Mase, 1995)。 当 然 ， 在 数据 集 不 趋 近 于 大 采样 极限 的 情况 下 ， 伪 似 然 可 能 
现 出 与 最 大 似 然 估计 不 同 的 结 

我 们 可 以 使 用 广义 伪 似 然 估 计 (generalized pseudolikelihood estimator ) 来 权 
衡 计 算 复 杂 度 和 最 大 似 然 表 现 的 偏差 (Huang and Ogata, 2002)。 广 义 伪 似 然 估 计 使 
用 和 个 不 同 的 集合 SO, 1 = 1 ,mm 作为 变量 的 指标 出 现在 条 件 棒 的 左 侧 。 在 
有 =1 和 SO) =1 ;7 的 极端 情况 下 , 广义 伪 似 然 估 计 会 变 为 对 数 似 然 。 在 人 m= 交 
和 SG = {} 的 极端 情况 下 ， 广 义 伪 似 然 会 恢复 为 伪 似 然 。 广 义 伪 似 然 估计 目 标 函 
数 如 下 所 示 





>》 logp(xso | x_so). (18.21) 
这 
基于 伪 似 然 的 方法 的 性 能 在 很 大 程度 上 取决 于 模型 是 如 何 使 用 的 。 对 于 完全 联 
合 分 布 p(x) 模型 的 任务 〈 例如 密度 估计 和 采样 )， 伪 似 然 通常 效果 不 好 。 对 于 在 训 
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练 期 间 只 需要 使 用 条 件 分 布 的 任务 而 言 ， 它 的 效果 比 最 大 似 然 更 好 ， 例 如 填充 少量 
的 缺失 值 。 如 果 数 据 具 有 规则 结构 ， 使 得 S 索引 集 可 以 被 设计 为 表现 最 重要 的 相关 
性 质 ， 同 时 略 去 相关 性 可 忽略 的 变量 , 那么 广义 伪 似 然 策略 将 会 非常 有 效 。 例 如 , 在 
自然 图 像 中 ,空间 中 相隔 很 远 的 像素 也 具有 弱 相 关 性 ， 因 此 广义 伪 似 然 可 以 应 用 于 
每 个 $ 集 是 小 的 局 部 空间 窗口 的 情况 。 

伪 似 然 估计 的 一 个 弱点 是 它 不 能 与 仅 在 闪 x) 上 提供 下 界 的 其 他 近似 一 起 使 用 ， 
例如 第 十 九 章 中 介绍 的 变 分 推断 。 这 是 因为 方 出 现在 了 分 母 中 。 分 母 的 下 界 仅 提供 
了 整个 表达 式 的 上 界 ， 然 而 最 大 化 上 界 没 有 什么 意义 。 这 使 得 我 们 难以 将 伪 似 然 方 
法 应 用 于 诸如 深度 玻 尔 效 曼 机 的 深度 模型 ， 因 为 变 分 方法 是 近似 边缘 化 互相 作用 的 
多 层 隐 藏 变量 的 主要 方法 之 一 。 尽 管 如 此 ， 伪 似 然 仍 然 可 以 用 在 深度 学 习 中 ， 它 可 
以 用 于 单 层 模型 ， 或 使 用 不 基于 下 界 的 近似 推 世 方 法 的 深度 模型 中 。 

伪 似 然 比 SML 在 每 个 梯度 步骤 中 的 计算 代价 要 大 得 多 ， 这 是 由 于 其 对 所 有 条 
件 进 行 显 式 计 算 。 但 是 ， 如 果 每 个 样本 只 计算 一 个 随机 选择 的 条 件 ， 那 么 广义 伪 
似 然 和 类 似 标 准 仍然 可 以 很 好 地 运行 ， 从 而 使 计算 代价 降低 到 和 SML 差不多 的 程 
度 (Goodfellow et ol., 2013d)。 

虽然 伪 似 然 估 计 没 有 显 式 地 最 小 化 log2， 但 是 我 们 仍然 认为 它 具 有 类 似 负 相 的 
效果 。 每 个 条 件 分 布 的 分 母 会 使 得 学 习 算 法 降低 所 有 仅 具 有 一 个 变量 不 同 于 训练 样 
本 的 状态 的 概率 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 伪 似 然 渐 近 效 率 的 理论 分 析 ,。 


























18.4 ”得 分 匹配 和 比率 匹配 





得 分 匹配 (Hyvizrinen, 2005b) 提供 了 另 一 种 训练 模型 而 不 需要 估计 2 或 其 导数 
的 一 致 性 方法 。 对 数 密度 关于 参数 的 导数 Vs。log p(z)， 被 称 为 其 得 分 ( score )， 得 分 
匹配 这 个 名 称 正 是 来 自 这 样 的 术语 。 得 分 匹配 采用 的 策略 是 ， 最 小 化 模型 对 数 密度 
和 数据 对 数 密度 关于 输入 的 导数 之 间 的 平方 差 期 望 : 





工 (2， 0) 于 |Vaslog pmoadel(2Z3 0) Valog paata( 四 | ) (18.22) 








J(g) 一 





pase(a 卫 (Z, 9)， (18.23) 





工 
2 
工 
2 


和 王 Imin .J(0). (18.24) 
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该 目标 栅 数 避 免 了 微分 配 分 国 数 2 闪 来 的 难题 ， 因 为 2 不 是 z 的 函数 ， 所 以 
Vx2 = 0。 最 初 ， 得 分 匹配 似乎 有 一 个 新 的 困难 : 计算 数据 分 布 的 得 分 需要 知道 生成 
训练 数据 的 真实 分 布 paata。 幸 运 的 是 ， 最 小 化 Z(z, 9) 的 期 望 等 价 于 最 小 化 下 式 的 
期 户 





和 1/ 92 1176 
了 (2， 0) 二 六 区 log DPmodel(Z; 0) 站 2 ( 冯 log pmodel(Z; 0)) ] 》 (18.25) 
了 


1 





其 中 冯 是 z 的 维度 。 

因为 得 分 匹配 需要 关于 x 的 导数 ， 所 以 它 不 适用 于 具有 离散 数据 的 模型 ， 但 是 
模型 中 的 潜 变 量 可 以 是 离散 的 。 

类 似 于 伪 似 然 ， 得 分 匹配 只 有 在 我 们 能 够 直接 估计 log P(x) 及 其 导数 的 时 候 才 
有 效 。 它 与 对 log 5x) 仅 提 供 下 界 的 方法 不 兼容 ， 因 为 得 分 匹配 需要 log 5(x) 的 导 
数 和 二 阶 导 数 ， 而 下 限 不 能 传达 关于 导数 的 任何 信息 。 这 意味 着 得 分 匹配 不 能 应 用 
于 隐藏 单元 之 间 具 有 复杂 相互 作用 的 模型 估计 ， 例 如 稀 朴 编码 模型 或 深度 玻 尔 效 曼 
机 。 虽 然 得 分 匹配 可 以 用 于 预 训练 较 大 模型 的 第 一 个 隐藏 层 ， 但 是 它 没 有 被 用 于 预 
训练 较 大 模型 的 较 深 层 网 络 。 这 可 能 是 因为 这 些 模型 的 隐藏 层 通常 包含 一 些 离散 变 


三 


里 o 











虽然 得 分 匹配 没有 明确 显示 具有 负 相 信息 ， 但 是 它 可 以 被 视 为 使 用 特定 类 型 马 
尔 可 夫 链 的 对 比 散 度 的 变种 (Hyvairinen, 2007a)j。 在 这 种 情况 下 ， 马 尔 可 夫 链 并 没有 
采用 Gibbs 采样 ， 而 是 采用 一 种 由 梯度 引导 局 部 更 新 的 不 同方 法 。 当 局 部 更 新 的 大 
小 接近 于 零 时 ， 得 分 匹配 等 价 于 具有 这 种 马尔 可 夫 链 的 对 比 散 度 。 

Lyu (2009) 将 得 分 匹配 推广 到 离散 的 情况 〈 但 是 推导 有 误 ， 后 由 Marlin et ol 
(2010) 修正 ). Marlin et oa/. (2010) 发 现 , 广义 得 分 匹配 ( generalized score match- 
ing，GSM ) 在 许多 样本 观测 概率 为 0 的 高 维 离散 空间 中 不 起 作用 。 

一 种 更 成 功 地 将 得 分 匹配 的 基本 想法 扩展 到 离散 数据 的 方法 是 比率 匹配 〈ratio 
matching ) (Hyvirinen, 2007b)。 比 率 匹 配 特别 适用 于 二 值 数据 。 比 率 匹 配 最 小 化 以 
下 目标 函数 在 样本 上 的 均值 : 


2 
1 
zeg -二 (去 RE | (18.26) 


一 pmodel(j(z),7T;9) 




















其 中 Am 力 返回 了 处 位 值 取 反 的 x。 比 率 匹 配 使 用 了 与 伪 似 然 佑 计 相 同 的 策略 来 绕 
开 配 分 国 数 : 配 分 困 数 会 在 两 个 概率 的 比率 中 抵消 掉 。Marlin et ol. (2010) 发 现 , 训 


528 第 十 入 章 ”直面 配 分 函数 


练 模 型 给 测试 集 图 像 去 噪 时 ， 比 率 匹 配 的 效果 要 优 于 SML 、 伪 似 然 和 GSM。 

类 似 于 伪 似 然 估 计 ， 比 率 匹配 对 每 个 数据 点 都 需要 m 个 方 的 估计 ， 因 此 每 次 更 
新 的 计算 代价 大 约 比 SML 的 计算 代价 高 出 m” 倍 。 

与 伪 似 然 估 计 一 样 ， 我 们 可 以 认为 比率 匹配 减 小 了 所 有 只 有 一 个 变量 不 同 于 训 
练 样本 的 状态 的 概率 。 由 于 比率 匹配 特别 适用 于 二 值 数 据 ， 这 意味 着 在 与 数据 的 汉 
明 距 离 为 1 内 的 所 有 状态 上 ， 比 率 匹 配 都 是 有 效 的 。 

比率 匹配 还 可 以 作为 处 理 高 维 稀 玻 数据 (例如 词 计 数 向 量 ) 的 基础 。 这 类 稀 踢 
数据 对 基于 MCMSC 的 方法 提出 了 挑战 ， 因 为 以 密集 格式 表示 数据 是 非常 消耗 计算 资 
源 的 ， 而 上 只 有 在 模型 学 会 表示 数据 分 布 的 稀 朴 性 之 后 ，MCMC 采样 才 会 产生 稀 玻 值 。 
Dauphin and Bengio (2013) 设计 了 比率 匹配 的 无 伍 随 机 近似 来 解决 这 个 问题 。 该 近 
似 只 估计 随机 选择 的 目标 子 集 ， 不 需要 模型 生成 完整 的 样本 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 比 率 匹 配 渐 近 效率 的 理论 分 
析 ， O 





























18.5 “去 噪 得 分 匹配 
某 些 情况 下 ， 我 们 希望 拟 合 以 下 分 布 来 正则 化 得 分 匹配 
Dasmoothed(Z) 二 egate 2dV (18.27) 


而 不 是 拟 合 真实 分 布 paata。 分布 q(z | 2 是 一 个 损坏 过 程 ， 通 常 在 形成 z 的 过 程 中 
会 向 y 中 添加 少量 噪声 。 

去 噪 得 分 匹配 非常 有 用 ， 因 为 在 实践 中 ， 通 党 我 们 不 能 获取 真实 的 paatas， 而 只 
能 得 到 其 样本 确定 的 经 验 分 布 。 给 定 足 够 容量 ， 任 何 一 致 估计 都 会 使 pmoasl 成 为 一 
组 以 训练 点 为 中 心 的 Dirac 分 布 。 考 虑 在 第 5.4.5 节 介绍 的 渐 近 一 致 性 上 的 损失 ， 通 
过 4 来 平滑 有 助 于 缓解 这 个 问题 。Kingma and LeCun (2010b) 介绍 了 平滑 分 布 y 为 
正 态 分 布 噪声 的 正则 化 得 分 匹配 。 

回顾 第 14.5.1 节 ， 有 一 些 自 编码 器 训练 算法 等 价 于 得 分 匹配 或 去 噪 得 分 匹配 。 
此 ， 这 些 自 编 码 器 训练 算法 也 是 解决 配 分 函数 问题 的 一 种 方式 。 
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18.6 ”噪声 对 比 估计 


具有 难 求解 的 配 分 函数 的 大 多 数 模型 佑 计 都 没有 估计 配 分 函数 。SML 和 CD 只 
估计 对 数 配 分 函数 的 梯度 ,而 不 是 估计 配 分 函数 本 和 号。 得 分 匹配 和 伪 似 然 避免 了 和 配 
分 函数 相关 的 计算 。 

噪声 对 比 估计 (noise-contrastive estimation, NCE ) (Gutmann and Hyvari- 
nen, 2010) 采取 了 一 种 不 同 的 策略 。 在 这 种 方法 中 , 模型 佑 计 的 概率 分 布 被 明确 表示 
为 

log pumaoadel(X) = log Paodel(X; 9) 十 ec， (18.28) 
其 中 c 是 -log2() 的 近似 。 噪 声 对 比 佑 计 过 程 将 c 视 为 另 一 参数 ， 使 用 相同 的 算 
法 同时 估计 2 和 c， 而 不 是 仅仅 估计 9, 。 因 此 ， 所 得 到 的 log pmoael(x) 可 能 并 不 完 
全 对 应 有 效 的 概率 分 布 ， 但 随 着 e 估计 的 改进 ， 它 将 变 得 越 来 越 接近 有 效 值 :。 

这 种 方法 不 可 能 使 用 最 大 似 然 作为 估计 的 标准 。 最 大 似 然 标准 可 以 设置 c 为 任 
意 大 的 值 ， 而 不 是 设置 c 以 创建 一 个 有 效 的 概率 分 布 。 

NCE 将 估计 P(x) 的 无 监督 学 习 问 题 转化 为 学 习 一 个 概率 二 元 分 类 顺 ， 其 中 一 
个 类 别 对 应 模型 生成 的 数据 。 该 监督 学 习 问 题 中 的 最 大 似 然 佑 计 定 义 了 原始 问题 的 
渐 近 一 致 估计 。 

具体 地 说 ， 我 们 引入 第 二 个 分 布 ， 噪 声 分 布 noise distribution ) pnoise(x)。 噪 
声 分 布 应 该 易于 估计 和 从 中 采样 。 我 们 现在 可 以 构造 一 个 联合 x 和 新 二 值 变量 y 的 
模型 。 在 新 的 联合 模型 中 ， 我 们 指定 














工 


Djoint (9 7 ]) 天 7， (18.29) 
Dioint (和 | 2 一 1) Dmodel(X)， (18.30) 

和 
Djoint (X | 2 一 0) 一 Danoise(X). (18.31) 


换言之 ，y 是 一 个 决定 我 们 从 模型 还 是 从 噪声 分 布 中 生成 x 的 开关 变量 。 

我 们 可 以 在 训练 数据 上 构造 一 个 类 似 的 联合 模型 。 在 这 种 情况 下 , 开关 变量 决定 
是 从 数据 还 是 从 噪声 分 布 中 抽取 和 o 正式 地 ， Dirain(9 1) 二 到， Dirain (X | 2 一 1) 二 
Daata(X) ? 和 train ( | V 一 0) 二 Dnoise (x)。 


INOCE 也 适用 于 具有 易于 处 理 的 ， 不 需要 引入 额外 参数 c 的 配 分 函数 的 问题 。 它 已 经 是 最 令 人 感 兴趣 的 ， 估 计 具 
有 复杂 配 分 函数 模型 的 方法 。 
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现在 我 们 可 以 应 用 标准 的 最 大 似 然 学 习 拟 合 Piont 到 puain 的 监督 学 习 问 题 : 











bc 一 argmaxE:- poologpiont(y | X). (18.32) 
O,c 








分 布 piont 本 质 上 是 将 逻辑 回归 模型 应 用 于 模型 和 噪声 分 布 之 间 的 对 数 概率 之 























差 : 汪 
model\ 共 
join: 三 二 | 沽 ) 宇 18.33 
六 人 ) model (x) 示 Dnoise(X) 人 ) 
| 
一 1 Dnoise(X) 418.34) 
二 Dmodel(X) 
语 (18.35) 
DnoiseN\ 艾 
1 2 (ios DPmodel 沼 ) 
Dnoise(X) 】 
一 0 | 一 log 一 一 18.36 
( 号 JPmodel (x) 人 ) 
一 al(log pmodel(x) 一 log pnoise(X)). (18.37) 


因此 ， 只 要 ]og Duaodel 易于 反 向 传播 ， 并 且 如 上 所 述 ， DOnoise 应 易于 估计 ( 以 便 
评估 piont ) 和 采样 (以 生成 训练 数据 )， 那 么 NCE 就 易于 使 用 。 

NCE 能 够 非常 成 功 地 应 用 于 随机 变量 较 少 的 问题 ， 但 即使 随机 变量 有 很 多 可 以 
取 的 值 时 ， 它 也 很 有 效 。 例 如 ， 它 已 经 成 功 地 应 用 于 给 定单 词 上 下 文 建 模 单 词 的 条 
件 分 布 (Mnih and Kavukcuoglu, 2013)。 虽 然 单词 可 以 采样 自 一 个 很 大 的 词汇 表 , 但 
是 只 能 采样 一 个 单词 。 

当 NCE 应 用 于 具有 许多 随机 变量 的 问题 时 ， 其 效率 会 变 得 较 低 。 当 旭 辑 回归 分 
类 器 发 现 某 个 变量 的 取 值 不 大 可 能 时 ， 它 会 拒绝 这 个 噪声 样本 。 这 意味 着 在 pmoaal 
学 习 了 基本 的 边缘 统计 之 后 ， 学 习 进 程 会 大 大 减 慢 。 想 象 一 个 使 用 非 结构 化 高 斯 品 
声 作 为 pnoise 来 学 习 面 部 图 像 的 模型 。 如 果 pmoadel 学 会 了 眼睛 ， 就 算 没 有 学 习 任 何 
其 他 面部 特征 ， 比 如 嘴 ， 它 也 会 拒绝 几乎 所 有 的 非 结构 化 噪声 样本 。 

噪声 分 布 paoise 必须 是 易于 估计 和 采样 的 约束 可 能 是 过 于 严格 的 限制 。 当 paoise 
比较 简单 时 ， 大 多 数 采样 可 能 与 数据 有 着 明显 不 同 ， 而 不 会 迫使 pmoael 进行 显著 改 


进 。 















































类 似 于 得 分 匹配 和 伪 似 然 ， 如 果 方 只 有 下 界 ， 那么 NCE 不 会 有 效 。 这 样 的 下 界 
能 够 用 于 构建 pient(y = 工 | x) 的 下 界 ， 但 是 它 只 能 用 于 构建 piont(y = 0 | x) (出 现 
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在 一 半 的 NCE 对 象 中 ) 的 上 界 。 同 样 地 ，Paoise 的 下 界 也 没有 用 ， 因 为 它 只 提供 了 
Diont(y 三 1 工 | x) 的 上 界 。 

在 每 个 梯度 步骤 之 前 ， 模 型 分 布 被 复制 来 定义 新 的 噪声 分 布 时 ，NCE 定义 了 一 
个 被 称 为 自 对 比 估计 (selfcontrastive estimation ) 的 过 程 ， 其 梯度 期 望 等 价 于 最 大 
似 然 的 梯度 期 望 (Goodfellow, 2014)。 特 殊 情 况 的 NCE (噪声 采样 由 模型 生成 ) 表 
明 最 大 似 然 可 以 被 解释 为 使 模型 不 断 学 习 以 将 现实 与 自身 发 展 的 信念 区 分 的 过 程 ， 
而 噪声 对 比 估计 通过 让 模型 区 分 现实 和 固定 的 基准 (噪声 模型 )， 我 们 降低 了 计算 成 
本 。 

在 训练 样本 和 生成 样本 (使 用 模型 能 量 函 数 定义 分 类 器 ) 之 间 进 行 分 类 以 得 
到 模型 的 梯度 的 方法 ， 已 经 在 更 早 的 时 候 以 各 种 形式 提出 来 (Welling et o,，2003b; 
Bengio, 2009)。 

噪声 对 比 估计 是 基于 良好 生成 模型 应 该 能 够 区 分 数据 和 噪声 的 想法 。 一 个 密切 
相关 的 想法 是 ， 良 好 的 生成 模型 能 够 生成 分 类 器 无 法 将 其 与 数据 区 分 的 样本 。 这 个 
想法 诞生 了 生成 式 对 抗 网 络 〈 第 20.10.4 节 ) 
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尽管 本 章 中 的 大 部 分 内 容 都 在 避免 计算 与 无 向 图 模型 相关 的 难以 计算 的 配 分 函 
数 3(9)， 但 在 本 节 中 我 们 将 会 讨论 几 种 直接 估计 配 分 困 数 的 方法 。 

估计 配 分 范 数 可 能 会 很 重要 ， 当 我 们 希望 计算 数据 的 归 一 化 似 然 时 ， 我 们 会 需 
要 它 。 在 评估 模型 ， 监 探 训练 性 能 ， 和 比较 模型 时 ， 这 通常 是 很 重要 的 。 

例如 ， 假 设 我 们 有 两 个 模型 : 概率 分 布 为 pa(x; 94) = 郊 记 (xi94) 的 模型 AM4 
和 概率 分 布 为 pp(xi gp) = 议 名 (xp) 的 模型 Mep。 比 较 模 型 的 常用 方法 是 评估 
和 比较 两 个 模型 分 配给 独立 同 分 布 测试 数据 集 的 似 然 。 假 设 测 试 集 含 mm 个 样本 
{z, ,zt 。 如 果 TTL pa(xt9;64) > [ps(xG;95)， 或 等 价 地 ， 如 果 


> logpa(x0;04) - 》 logpp(x0O;g5) > 0， (18.38) 











那么 我 们 次 AM4 是 一 个 比 Ms 更 好 的 模型 (或 者 ， 至 少 可 以 说 ， 它 在 测试 集 上 是 
一 个 更 好 的 模型 )， 这 是 指 它 有 一 个 更 好 的 测试 对 数 似 然 。 不 笠 的 是 ,测试 这 个 条 件 
是 否 成 立 需要 知道 配 分 图 数 。 式 (18.38) 看 起 来 需要 估计 模型 分 配给 每 个 点 的 对 数 概 
率 ， 因 而 需要 估计 配 分 图 数 。 我 们 可 以 通过 将 式 (18.38) 重新 转化 为 另 一 种 形式 来 简 
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化 情况 ， 在 该 形式 中 我 们 只 需要 知道 两 个 模型 的 配 分 函数 的 比率 : 


下 ee 天 交 的 “2 的 
(18.39) 
因此 ， 我 们 可 以 在 不 知道 任 一 模型 的 配 分 画 数 ， 而 只 知道 它们 比率 的 情况 下 ， 判 断 
模型 MA4 是 否 比 模型 As 更 优 。 正 如 我 们 将 很 快 看 到 的 ， 在 两 个 模型 相似 的 情况 
下 ,我 们 可 以 使 用 重要 采样 来 估计 比率 。 
然而 ， 如 果 我 们 想 要 计算 测试 数据 在 Ma4 或 Me 上 的 真实 概率 ， 我 们 需要 计 
算 配 分 函数 的 真实 值 。 如 果 我 们 知道 两 个 配 分 函数 的 比率 ，r = 允 叶 ， 并 且 我 们 知 
道 两 者 中 一 个 的 实际 值 ， 比 如 说 2(64)， 那 么 我 们 可 以 计算 另 一 个 的 值 : 


QZF00p5) 
QZ(04) 











Z(bp) =r2Z(94) = Z(64). (18.40) 

一 种 估计 配 分 函数 的 简单 方法 是 使 用 蒙特 卡 罗 方 法 ， 例 如 简单 重要 采样 。 以 下 
用 连续 变量 积分 来 表示 该 方法 ， 也 可 以 替换 积分 为 求 和 ， 很 容易 将 其 应 用 到 离散 变 
量 的 情况 。 我 们 使 用 提议 分 布 po(x) = 记名 (xx)， 其 在 配 分 胃 数 2 和 未 归 一 化 分 布 
启 (x) 上 易于 采样 和 估计 。 




















2 =- eeoe (18.41) 
/下 光 六 Codx (18.42) 
三 2 / mc 全 dx (18.43) 
德 党 。 > 本 St. 3: xX(O Do (18.44) 


在 最 后 一 行 ， 我 们 使 用 蒙特 卡 罗 估 计 ， 使 用 从 po(x) 中 抽取 的 采样 计算 积分 夕 ， 
然后 用 未 归 一 化 的 六 和 提议 分 布 po 的 比率 对 每 个 采样 加 权 。 
这 种 方法 使 得 我 们 可 以 估计 配 分 胃 数 之 间 的 比率 : 


本 st. : X() ~ 2D0， (18.45) 


然后 该 值 可 以 直接 比较 式 (18.39) 中 的 两 个 模型 。 
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如 果 分 布 po 接近 1， 那 么 式 (18.44) 能 够 有 效 地 估计 配 分 责 数 (Minka, 2005)。 
不 幸 的 是 ， 大 多 数 时候 Pi 都 很 复杂 (通常 是 多 峰值 的 ) ， 并 且 定 义 在 高 维 空间 中 。 
很 难 找到 一 个 易 求 解 的 pp ， 既 能 易于 评估 ， 又 能 充分 接近 zl 以 保持 高 质量 的 近似 。 
如 果 zo 和 Pi 不 接近 ,那么 ze 的 大 多 数 采 样 将 在 zi 中 具有 较 低 的 概率 ， 从 而 在 
式 (18.44) 的 求 和 中 产生 ( 相对 的 ) 可 忽略 的 贡献 。 

如 果 求 和 中 只 有 少数 几 个 具有 显著 权重 的 样本 ， 那 么 将 会 由 于 高 方差 而 导致 估 
计 的 效果 很 差 。 这 可 以 通过 估计 轧 的 方差 来 定量 地 理解 : 





这 


大 一 1 


当 重要 性 权重 六 esm} 存在 显著 偏差 时 ， 上 式 的 值 是 最 大 的 。 

我 们 现在 关注 两 个 解决 高 维 空间 复杂 分 布 上 估计 配 分 函数 的 方法 : 退火 重要 采 
样 和 桥 式 采样 。 两 者 都 始 于 上 面 介绍 的 简单 重要 采样 方法 ， 并 且 都 试图 通过 引入 纺 
小 pe 秋之 间 差 距 的 中 间 分 布 ， 来 解决 po 远离 im 的 问题 。 


写 | 羡 


Var ( 纪 ) 攻 





)) 和 ] . (18.46) 


1 (Xe 
0(X(5)) 


全 :| 全) 








18.7.1 “退火 重要 采样 


在 Drz(zollzi) 很 大 的 情况 下 〈 即 po 和 Pi 之 间 几 乎 没有 重 妥 )， 一 种 称 为 退火 
重要 采样 ( annealed importance sampling，AIS ) 的 方法 试图 通过 引入 中 间 分 
布 来 缩小 这 种 差距 (Jarzynski,1997; Neal, 2001)。 考 虑 分 布 序列 pn ,py ， 其 中 
0= 加 << 太 < < 7171< 加 三 1， 分布 序 列 中 的 第 一 个 和 最 后 一 个 分 别 是 pe 和 
Dlo 

这 种 方法 使 我 们 能 够 估计 定义 在 高 维 空间 多 峰 分 布 〈 例 如 训练 RBM 时 定义 
的 分 布 ) 上 的 配 分 函数 。 我 们 从 一 个 已 知 配 分 函数 的 简单 模型 〈( 例 如， 权重 为 零 
的 RBM ) 开始 ， 估 计 两 个 模型 配 分 函数 之 间 的 比率 。 该 比率 的 估计 基于 许多 个 相似 
分 布 的 比率 估计 ， 例 如 在 零 和 学 习 到 的 权重 之 间 搬 值 一 组 权重 不 同 的 RBM。 
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现在 我 们 可 以 将 比率 条 写作 


AOLI AAA， 











E 2 18.47 
2Z0 和 441 和 人 ) 
王 2 Za 2 2 (18 48) 
2 2 QA1。 2 Zi 
也 一 工 
OA 
= 二天. (18.49) 
上 上 2 
JI 一 0 


如 果 对 于 所 有 的 0 和 7 么 史 一 1， 分 布 pw 和 pi 足够 接近 ， 那 么 我 们 能 够 使 用 简 
单 的 重要 采样 来 估计 每 个 因子 2 然后 使 用 这 些 得 到 用 的 估计 。 

这 些 中 间 分 布 是 从 哪里 来 的 呢 ? 正如 最 先 的 提议 分 布 po 是 一 种 设计 选择 ， 分 布 
序列 zj :pr : 也 是 如 此 。 也 就 是 说 ， 它 们 可 以 被 特别 设计 为 特定 的 问题 领域 。 中 
间 分 布 的 一 个 通用 和 流行 选择 是 使 用 目标 分 布 za 的 加 权 几 何平 均 ， 起 始 分 布 〈 其 配 
分 函数 是 已 知 的 ) 为 po: 





， 1 一 刀 ， 
Dm DYP0 “， (18.50) 


为 了 从 这 些 中 间 分 布 中 采样 ， 我 们 定义 了 一 组 马尔 可 夫 链 转移 函数 (zx | 四 ， 
定义 了 给 定 z 转移 到 坟 的 条 件 概 率 分 布 。 转 移 算 子 (w | z) 定义 如 下 ， 保 持 
2 (z) 不 变 : 

Dmi (2Z) 三 二 2 dz (18.51) 
这 些 转移 可 以 被 构造 为 任何 马尔 可 夫 链 蒙特 卡 罗 方 法 (例如 ，Metropolis-Hastings， 
Gibbs )， 包 括 涉及 多 次 遍历 所 有 随机 变量 或 其 他 迭代 的 方法 。 

然后 ，AIS 采样 方法 从 po 开始 生成 样本 ， 并 使 用 转移 算 子 从 中 间 分 布 顺序 地 生 

成 采样 ， 直 到 我 们 得 到 目标 分 布 Pi 的 采样 : 











e 对 于 8 王 1... 玖 
= 采样 2 人 po(x) 
-采样 敬 ) ~ Ta (x 和 | xz 多 )) 
采样 ae) ， 人 本 (xl ， | zt 。) 
二 开 大 大 
= 东信 交 呈 国 6T 


。 结束 
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对 于 采样 上 ， 通 过 连接 式 (18.49) 给 出 的 中 间 分 布 之 间 的 重要 性 权重 ， 我 们 可 以 
导出 目标 重要 性 权重 ; 














混 天 如 天 浊 态 
内 巩 (zi) pz) 广 (z)) 
人 Re CR (18.52) 
万 0(zo ) DT (Znz ) 万 。: (zhr ) 


为 了 避免 诸如 上 滋 的 数值 问题 ， 最 佳 方法 可 能 是 通过 加 法 或 减法 计算 log wo ， 而 不 
是 通过 概率 乘法 和 除法 计算 wo 。 

利用 由 此 定义 的 采样 过 程 和 式 (18.52) 中 给 出 的 重要 性 权重 ， 配 分 函数 的 比率 佑 
计 如 下 所 示 : 





2 1 
过 2 (18.53) 

为 了 验证 该 过 程 定义 的 重要 采样 方案 是 否 有 效 ， 我 们 可 以 展示 (Neal， 
2001) AIS 过 程 对 应 着 扩展 状态 空间 上 的 简单 重要 采样 ， 其 中 数据 点 采样 自 乘 
职 空 间 [zz am]。 为 此 ， 我 们 将 扩展 空间 上 的 分 布 定 义 为 








万 (全 12 ) (18.54) 


王立 (21)77。 (Zn 21 ) 2 (元 Zn _1) 5 2 (Zm op )， (18.55) 





其 中 到 是 由 允 定义 的 转移 算 子 的 逆 (应 用 贝 叶 斯 规则 ): 
交 (z| 四 = 名 人 Tsa| 过) = 2 人 | 过) (18.56) 


将 以 上 代入 到 式 (18.55) 给 出 的 扩展 状态 空间 上 的 联合 分 布 中 ， 我 们 得 到 : 








区 2) (18.57) 
-六 (mm) 了 -tc (Z1 | 2 ) 末 ta | 灾 二 (18.58) 
万 。，,(zZ1) 77m 一 工 71m 一 1 2 访 ， (Zhi) ?11 ”771 十 1 7 
万 (az ) 1 
工 工 一 77i 十 1 i 十 1 
三 Ti (ZI | zi) : (2 了 ) 一 1 2 ) (18.59) 
万。: (2 ) “ 贡 万 27) 人 


通过 上 面 给 定 的 采样 方案 ， 现 在 我 们 可 以 从 扩展 样本 上 的 联合 提议 分 布 9 上 生成 采 
样 ， 联 合 分 布 如 下 


d(27 21 21) 一 Do(Zh)T7 (Zoo | 0 Ti (ZI | Zi) (18.60) 
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式 (18.59) 给 出 了 扩展 空间 上 的 联合 分 布 。 将 g(z ,mm 袜 ) 作为 扩展 状态 空间 
上 的 提议 分 布 〈 我 们 会 从 中 抽样 )， 重 要 性 权重 如 下 








证 奈 三 万 (2 Zn ZI) 六 (zi)) 有 Do ( 动 7 (oh ) (18.61) 
go 
这 些 权重 和 AIS 上 的 权重 相同 。 因 此 ， 我 们 可 以 将 AIS 解释 为 应 用 于 扩展 状态 上 的 
简单 重要 采样 ， 其 有 效 性 直接 来 源 于 重要 采样 的 有 效 性 。 
退火 重要 采样 首先 由 Jarzynski (1997) 发 现 , 然后 由 Neal (2001) 再 次 独立 发 现 。 
目前 它 是 估计 无 向 概率 模型 的 配 分 函数 的 最 常用 方法 。 其 原因 可 能 与 一 篇 有 影响 力 
的 论文 (Salakhutdinov and Murray, 2008) 有 关 ， 该 论文 并 没有 讨论 该 方法 相对 于 其 
他 方法 的 优点 ， 而 是 介绍 了 将 其 应 用 于 估计 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 的 配 分 
关于 AIS 估计 性 质 〈 例 如， 方差 和 效率 ) 的 讨论 ， 请 参看 Neal (2001)。 


























18.7.2 ” 桥 式 采样 


类 似 于 AIS ， 桥 式 采 样 (Bennett, 1976) 是 另 一 种 处 理 重要 采样 缺点 的 方法 。 并 
非 将 一 系列 中 间 分 布 连接 在 一 起 ， 桥 式 采 样 依赖 于 单个 分 布 p，( 被 称 为 桥 )， 在 已 
知 配 分 函数 的 分 布 po 和 分 布 1 (我们 试图 估计 其 配 分 函数 2 ) 之 间 搬 值 。 

桥 式 采样 估计 比率 2/20: 页 和 所 之 间 重 要 性 权重 期 望 与 页 和 记 之 间 重 要 
性 权重 的 比率 ， 


























人 开 -、，(K 
互 、( 六 (中 ) (18.62) 
7 
天 ADC ) 


如 果 仔 细 选 择 桥 式 采样 ns ， 使 其 与 po 和 pi 都 有 很 大 重合 的 话 ， 那 么 桥 式 采样 能 够 
人 允许 两 个 分 布 《或 更 正式 地 ，PDrr(zollzi) ) 之 间 有 较 大 差距 〈 相对 标准 重要 采样 而 


言 )。 











可 以 表明 ， 最 优 的 桥 式 采样 是 pr” (x) cc 驳 辣 品 订 ,其 中 一 马 /2o。 这 似乎 
是 一 个 不 可 行 的 解决 方案 ， 因 为 它 似乎 需要 我 们 估计 数值 2./Zo。 然 而 ， 可 以 从 粗 
糙 的 * 开始 估计 ， 然 后 使 用 得 到 的 桥 式 采样 逐步 透 代 以 改进 估计 (Neal, 2005)。 也 就 


是 说 ， 我 们 会 迭代 地 重新 估计 比率 ， 并 使 用 每 次 迭 代 更 新 ” 的 值 。 
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链接 重要 采样 ”AIS 和 桥 式 采样 各 有 优点 。 如 果 Dr (zollpi) 不 太 大 〈 由 于 po 和 疡 
足够 接近 ) 的 话 ， 那 么 桥 式 采 样 能 比 AIS 更 高 效 地 估计 配 分 图 数 比 率 。 然 而 ， 如 果 
对 于 单个 分 布 pr* 而 言 ， 两 个 分 布 相 距 太 远 难以 桥接 差距 ， 那 么 AIS 至 少 可 以 使 用 许 
多 潜在 中 间 分 布 来 跨越 po 和 Pi 之 间 的 差距 。Neal (2005) 展示 链接 重要 采样 方法 如 
何 利 用 桥 式 采样 的 优点 ， 桥 接 AIS 中 使 用 的 中 间 分 布 ， 并 且 显 著 改 进 了 整个 配 分 天 
数 的 估计 。 





在 训练 期 间 估 计 配 分 函数 虽然 AIS 已 经 被 认为 是 用 于 估计 许多 无 向 模型 配 分 函 
数 的 标准 方法 ， 但 是 它 在 计算 上 代价 很 高 ， 以 致 其 在 训练 期 间 仍 然 不 很 实用 。 研 究 
者 探索 了 一 些 在 训练 过 程 中 估计 配 分 函数 的 蔡 代 方法 。 

使 用 桥 式 采样 、 短 链 AIS 和 并 行 回 火 的 组 合 ，Desjardins et oL. (2011) 设计 了 一 
种 在 训练 过 程 中 追踪 RBM 配 分 函数 的 方法 。 该 策略 的 基础 是 ， 在 并 行 回 火 方法 操作 
的 每 个 温度 下 ，RBM 配 分 函数 的 独立 估计 会 一 直 保持 。 作 者 将 相 邻 链 (来 自 并 行 回 
火 ) 的 配 分 函数 比率 的 桥 式 采样 估计 和 跨越 时 间 的 AIS 估计 组 合 起 来 ， 提 出 一 个 在 
每 次 迭代 学 习 时 估计 配 分 函数 的 〈 且 方差 较 小 的 ) 方法 。 

本 章 中 描述 的 工具 提供 了 许多 不 同 的 方法 ， 以 解决 难处 理 的 配 分 函数 问题 ， 但 
是 在 训练 和 使 用 生成 模型 时 ， 可 能 会 存在 一 些 其 他 问题 。 其 中 最 重要 的 是 我 们 接 下 
来 会 遇 到 的 难以 推断 的 问题 。 
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许多 概率 模型 很 难 训练 的 原因 是 很 难 进 行 推 新 。 在 深度 学 习 中 ， 通 党 我 们 有 一 
系列 可 见 变 量 v 和 一 系列 潜 变 量 j。 推断 困难 通常 是 指 难 以 计算 pz( 产 | w) 或 其 期 望 。 
而 这 样 的 操作 在 一 些 诸如 最 大 似 然 学 习 的 任务 中 往往 是 必需 的 。 

许多 仅 含 一 个 隐藏 层 的 简单 图 模型 会 定义 成 易于 计算 pz( 瑚 | v) 或 其 期 望 的 形式 ， 
例如 受 限 玻 尔 效 受 机 和 概率 PCA。 不 幸 的 是 ， 大 多 数 具 有 多 层 隐藏 变量 的 图 模型 的 
后 验 分 布 都 很 难处 理 。 对 于 这 些 模型 而 言 ， 精 确 推 斯 算法 需要 指数 量 级 的 运行 时 间 。 
即使 一 些 只 有 单 层 的 模型 ， 如 稀 琉 编码 ， 也 存在 着 这 样 的 问题 。 

在 本 章 中 ， 我 们 将 会 介绍 几 个 用 来 解决 这 些 难 以 处 理 的 推断 问题 的 技巧 。 稍 后 ， 
在 第 二 十 章 中 ,我们 还 将 描述 如 何 将 这 些 技巧 应 用 到 训练 其 他 方法 难以 委 效 的 概率 
模型 中 ， 如 深度 信念 网 络 、 深 度 玻 尔 效 曼 机 。 

在 深度 学 习 中 难以 处 理 的 推 其 问题 通 常 源 于 结构 化 图 模型 中 光 变 量 之 间 的 相互 
作用 。 读 者 可 以 参考 图 19.1 的 几 个 例子 。 这 些 相 互 作用 可 能 是 无 向 模型 的 直接 相互 
作用 ， 也 可 能 是 有 向 模型 中 同一 个 可 见 变量 的 共同 祖先 之 间 的 “ 相 消解 释 ” 作 用 。 
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和 个 伟 图 


图 19.1: 深度 学 习 中 难以 处 理 的 推断 问题 通常 是 由 于 结构 化 图 模型 中 潜 变量 的 相互 作用 。 这 些 
相互 作用 产生 于 一 个 潜 变 量 与 另 一 个 潜 变量 或 者 当 V- 结 构 的 子 节点 可 观察 时 与 更 长 的 激活 路 径 
相连 。( 堪 ) 一 个 隐藏 单元 存在 连接 的 半 受 限 玻 尔 兹 曼 机 (semi-restricted Boltzmann Machine ) 
(Osindero and Hinton, 2008)。 由 于 存在 大 量 潜 变 量 的 团 ， 洪 变量 的 直接 连接 使 得 后 验 分 布 难以 处 
理 。( 中 ) 一 个 深度 玻 尔 效 曼 机 ,被 分 层 从 而 使 得 不 存在 层 内 连接 , 由 于 层 之 间 的 连接 其 后 验 分 布 仍 
然 难以 处 理 。( 右 ) 当 可 见 变量 可 观察 时 这 个 有 向 模型 的 潜 变量 之 间 存 在 相互 作用 ， 因 为 每 两 个 潜 
变量 都 是 共 父 。 即 使 拥有 上 图 中 的 某 一 种 结构 ， 一 些 概率 模型 依然 能 够 获得 易于 处 理 的 关于 洪 变 
量 的 后 验 分 布 。 如 果 我 们 选择 条 件 概 率 分 布 来 引入 相对 于 图 结构 描述 的 额外 的 独立 性 这 种 情况 也 
是 可 能 出 现 的 。 举 个 例子 ， 概 率 PCA 的 图 结构 如 右 图 所 示 ， 然 而 由 于 其 条 件 分 布 的 特殊 性 质 〈 带 
有 相互 正 交 基 向 量 的 线性 高 斯 条 件 分 布 ) 依然 能 够 进行 简单 的 推 疡 。 
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精确 推 新 问题 可 以 描述 为 一 个 优化 问题 ， 有 许多 方法 正 是 由 此 解决 了 推 新 的 困 
难 。 通 过 近似 这 样 一 个 潜在 的 优化 问题 ， 我 们 往往 可 以 推导 出 近似 推断 算法 。 

为 了 构造 这 样 一 个 优化 问题 ， 假 设 我 们 有 一 个 包含 可 见 变量 v 和 潜 变 量 疡 的 概 
率 模型 。 我 们 和 希望 计算 观察 数据 的 对 数 概率 log p(w; 9)。 有 时 候 如 果 边 缘 化 消去 天 的 
操作 很 费时 ， 我 们 会 难以 计算 logp(w; 9)。 作 为 替代 ， 我 们 可 以 计算 一 个 logp(w; 9) 
的 下 界 C(uw, 9,dq)。 这 个 下 界 被 称 为 证 据 下 界 ( evidence lower bound, ELBO )。 这 个 
下 界 的 另 一 个 常用 名 称 是 负 变 分 自由 能 (variational free energy )。 具 体 地 ， 这 个 证 
据 下 界 是 这 样 定义 的 : 


Cug,9)=logp(ug) 一 Drr(d( 关 | olp( 关 | 9))， (19.1) 


其 中 9 是 关于 六 的 一 个 任意 概率 分 布 。 
因为 logp(w) 和 C(u,6,9) 之 间 的 距离 是 由 KL 散 度 来 衡量 的 ， 且 KL 散 度 总 是 
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非 负 的 ， 我 们 可 以 发 现 C 总 是 小 于 等 于 所 求 的 对 数 概率 。 当 且 仅 当 分 布 g 完全 相等 
于 2p( 瑚 | v) 时 取 到 等 号 。 

令 人 吃惊 的 是 ， 对 于 某 些 分 布 9， 计 算 C 可 以 变 得 相当 简单 。 通 过 简单 的 代数 
运算 我 们 可 以 把 C 重 写成 一 个 更 加 简单 的 形式 : 



































Cu0,9) =logp(ug) 一 Drr(d( 天 | op ww 9)) (19.2) 
2( 疡 | 蕊 
=1 ;9) 一 下 mv1 19， 
og D(V; ) Ph~ qd 7 人 人 9.3) 
d(P | V 
王 logp(V;O) 一 下 hbwvvlog 的 (19.4) 
P(0ViO) 
=logp(o;0) 一 下 nallogd(| 切 一 logp( 九 9) 十 logp(ug)] (19.5) 
三 一 了 hlogda(p | 一 logp(P vi) (19.6) 











这 也 给 出 了 证 据 下 界 的 标准 定义 : 











Cu,9,9) = 了 Elogp(P ov)] 十 瑟 (9). (19.7) 





对 于 一 个 选择 的 合适 分 布 9 来 说 ，Z 是 容易 计算 的 。 对 任意 分 布 dg 的 选择 来 说 ， 
忆 提供 了 似 然 函 数 的 一 个 下 界 。 越 好 地 近似 p( 产 | w 的 分 布 g( 刀 | ， 得 到 的 下 界 就 
越 紧 ,换言之 ， 就 是 与 log p(uw) 更 加 接近 。 当 9( 刀 | w) = 2( 刀 | w) 时 ， 这 个 近似 是 完 
美的 ， 也 意味 着 Clw 9,d) = logp(o; 0)。 

因此 我 们 可 以 将 推 产 问题 看 作 是 找 一 个 分 布 dg 使 得 C 最 大 的 过 程 。 精 确 推断 能 
够 在 包含 分 布 p( 闫 | w) 的 函数 族 中 搜索 一 个 冰 数 ,完美 地 最 大 化 C。 在 本 章 中 , 我 们 
将 会 讲 到 如 何 通 过 近似 优化 寻找 分 布 9 的 方法 来 推导 出 不 同形 式 的 近似 推断 。 我 们 
可 以 通过 限定 分 布 9 的 形式 或 者 使 用 并 不 彻底 的 优化 方法 来 使 得 优化 的 过 程 更 加 高 
效 〈 却 更 粗略 )， 但 是 优化 的 结果 是 不 完美 的 ， 不 求 彻 底 地 最 大 化 C， 而 只 要 显著 地 
提升 C。 

无 论 我 们 选择 什么 样 的 分 布 9*，Z 始终 是 一 个 下 界 。 我 们 可 以 通过 选择 一 个 更 简 
单 或 更 复杂 的 计算 过 程 来 得 到 对 应 的 更 松 或 更 紧 的 下 界 。 通 过 一 个 不 彻底 的 优化 过 
程 或 者 将 分 布 9 做 很 强 的 限定 (并且 使 用 一 个 彻底 的 优化 过 程 ) 我 们 可 以 获得 一 个 
很 差 的 分 布 9， 但 是 降低 了 计算 开销 。 
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19.2 “期望 最 大 化 


我 们 介绍 的 第 一 个 最 大 化 下 界 C 的 算法 是 期 望 最 大 化 〈expectation maximiza- 
tion, EM ) 算法 。 在 潜 变 量 模型 中 ， 这 是 一 个 非常 常见 的 训练 算法 。 在 这 里 我 们 描 
述 Neal and Hinton (1999) 所 提出 的 EM 算法 。 与 大 多 数 我 们 在 本 章 中 介绍 的 其 他 
算法 不 同 的 是 ，EM 并 不 是 一 个 近似 推断 算法 ， 而 是 一 种 能 够 学 到 近似 后 验 的 算法 。 

EM 算法 由 交替 欠 代 ， 直 到 收敛 的 两 步 运算 组 成 








e。 步 (expectation step ) : 令 0(0 表示 在 这 一 步 开 始 时 的 参数 值 。 对 任何 我 们 
想 要 训练 的 (对 所 有 的 或 者 小 批量 数据 均 成 立 ) 索引 为 的 训练 样本 v， 令 
d(P9 | = P(PO | v0;6(0))。 通 过 这 个 定义 ,我 们 认为 4 在 当前 参数 g(0) 下 
定义 。 如 果 我 们 改变 0， 那么 p( 关 | ug) 将 会 相应 地 变化 ， 但 是 g( 刀 | 岂 还 是 
不 变 并 且 等 于 p( 刀 | 愉 9(0))。 


e。M 步 (maximization step ): 使 用 选择 的 优化 算法 完全 地 或 者 部 分 地 关于 6 最 
大 化 


六 (19.8) 

这 可 以 被 看 作 通过 坐标 上 升 算法 来 最 大 化 C。 在 第 一 步 中 ， 我 们 更 新 分 布 9 来 
最 大 化 C， 而 在 另 一 步 中 ,我 们 更 新 9 来 最 大 化 C。 

基于 湾 变 量 模型 的 随机 梯度 上 升 可 以 被 看 作 是 一 个 EM 算法 的 特例 ， 其 中 M 
步 包 括 了 单 次 梯度 操作 。EM 算法 的 其 他 变种 可 以 实现 多 次 梯度 操作 。 对 一 些 模型 
族 来 说 ，M 步 甚 至 可 以 直接 推出 解析 解 ， 不 同 于 其 他 方法 ， 在 给 定 当前 9 的 情况 下 
直接 求 出 最 优 解 。 

尽管 已 步 采 用 的 是 精确 推 新 ， 我 们 仍然 可 以 将 EM 算法 视 作 是 某 种 程度 上 的 近 
似 推断 。 上 具体 地 说 ，M 步 假 设 一 个 分 布 dg 可 以 被 所 有 的 9 值 分 享 。 当 M 步 越 来 越 
远离 卫 步 中 的 840) 时 ， 这 将 会 导致 C 和 真实 的 log p(w) 之 间 出 现 差距 。 幸 运 的 是 ， 
在 进入 下 一 个 循环 时 ,已 步 把 这 种 差距 又 降 到 了 0。 

EM 算法 还 包含 一 些 不 同 的 见解 。 首 先 ， 它 包含 了 学 习 过 程 的 一 个 基本 框架 ， 就 
是 我 们 通过 更 新 模型 参数 来 提高 整个 数据 集 的 似 然 ， 其 中 缺失 变量 的 值 是 通过 后 验 
分 布 来 估计 的 。 这 种 特定 的 性 质 并 非 EM 算法 独 有 的 。 例 如 , 使 用 梯度 下 降 来 最 大 化 
对 数 似 然 画 数 的 方法 也 有 相同 的 性 质 。 计 算 对 数 似 然 函 数 的 梯度 需要 对 隐藏 单元 的 
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后 验 分 布 求 期 望 。EM 算法 另 一 个 关键 的 性 质 是 当 我 们 移动 到 另 一 个 2 时 候 ， 我 们 
仍然 可 以 使 用 旧 的 分 布 g。 在 传统 机 融 学 习 中 ， 这 种 特有 的 性 质 在 推导 大 M 步 更 新 
时 候 得 到 了 广泛 的 应 用 。 在 深度 学 习 中 ， 大 多 数 模型 太 过 于 复杂 以 致 于 在 最 优 大 M 
步 更 新 中 很 难得 到 一 个 简单 的 解 。 所 以 EM 算法 的 第 二 个 特质 ， 更 多 为 其 所 独 有 ， 
较 少 被 使 用 。 
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我 们 通常 使 用 推断 (inference ) 这 个 术语 来 指 代 给 定 一 些 其 他 变量 的 情况 下 计 
算 某 些 变量 概率 分 布 的 过 程 。 当 训练 带 有 洪 变 量 的 概率 模型 时 ， 我 们 通常 关注 于 计 
算 p( 庆 | 可。 另 一 种 可 选 的 推 基 形 式 是 计算 一 个 缺失 变量 的 最 可 能 值 来 代替 在 所 有 可 
能 值 的 完整 分 布 上 的 推断 。 在 潜 变 量 模型 中 ， 这 意味 着 计算 





及 一 argmax D( 疡 | 切 . (19.9) 


这 被 称 作 最 大 后 验 ( Maximum A Posteriori ) 推断， 简称 MAP 推 呆 。 

MAP 推断 并 不 被 视 作 是 一 种 近似 推断 ， 它 只 是 精确 地 计算 了 最 有 可 能 的 一 个 
近 。 然 而 ， 如 果 我 们 希望 设计 一 个 最 大 化 C(w 户 9) 的 学 习 过 程 ， 那 么 把 MAP 推断 
视 作 是 输出 一 个 g 值 的 学 习 过 程 是 很 有 帮助 的 。 在 这 种 情况 下 , 我 们 可 以 将 MAP 推 
上 断 视 作 是 近似 推断 ， 因 为 它 并 不 能 提供 一 个 最 优 的 q。 

我 们 回 过 头 来 看 看 第 19.1 节 中 所 描述 的 精确 推 新 ， 它 指 的 是 关于 一 个 在 无 限 甫 
的 概率 分 布 族 中 的 分 布 9 使 用 精确 的 优化 算法 来 最 大 化 





一 全 














CU,9) = 了 aologp(j yo] 十 (9). (19.10) 


我 们 通过 限定 分 布 v 属于 某 个 分 布 族 ， 能 够 使 得 MAP 推断 成 为 一 种 形式 的 近似 推 
断 。 具 体 地 说 ， 我 们 令 分 布 gd 满足 一 个 Dirac 分 布 : 


dg(z| 可 二 5 下 (19.11) 





这 也 意味 着 现在 我 们 可 以 通过 凡 来 完全 控制 分 布 9。 将 C 中 不 随 六 变化 的 项 丢弃 ， 
我 们 只 需 解 决 一 个 优化 问题 : 


/ 必 一 argmax logD( 严 = 几 AU)， (19.12) 
用 
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这 等 价 于 MAP 推断 间 题 


及 一 argmaxDp( 刀 | 疏 . (19.13) 
有 














因此 我 们 能 够 证 明 一 种 类 似 于 EM 算法 的 学 习 算 法 ， 其 中 我 们 轮流 和 欠 代 两 步 ， 
一 步 是 用 MAP 推断 估计 出 产 ， 另 一 步 是 更 新 0 来 增 大 logp( 产 ,v)。 从 EM 算法 角 
度 看 ， 这 也 是 对 Z 的 一 种 形式 的 坐标 上 升 ， 交 替 和 欠 代 时 通过 推 产 来 优化 关于 9 的 
以 及 通过 参数 更 新 来 优化 关于 0 的 C。 作 为 一 个 整体 ， 这 个 算法 的 正确 性 可 以 得 到 
保证 ， 因 为 C 是 logp(u) 的 下 界 。 在 MAP 推断 中 ， 这 个 保证 是 无 效 的 ， 因 为 Dirac 
分 布 的 微分 烂 趋 近 于 负 无 穷 ， 使 得 这 个 界 会 无 限 地 松 。 然 而 ， 人 为 加 入 一 些 凡 的 噪 
声 会 使 得 这 个 界 又 有 了 意义 。 

MAP 推 朵 作为 特征 提取 器 以 及 一 种 学 习 机 制 被 广泛 地 应 用 在 了 深度 学 习 中 。 它 
主要 用 于 稀 踊 编码 模型 中 。 

我 们 回 过 头 来 看 第 13.4 节 中 的 稀 玻 编码 ， 稀 下 编 码 是 一 种 在 隐藏 单元 上 加 上 了 
诱导 稀 玻 性 的 先 验 知识 的 线性 因子 模型 。 一 个 常用 的 选择 是 可 分 解 的 Laplace 先 验 ， 
表示 为 




















入 
2(jai) 三 机 exP( 一 人 /al)， (19.14) 
可 见 的 节点 是 由 一 个 线性 变化 加 上 噪声 生成 的 : 
Du | 站 = TH 二 DO. (19.15) 





分 布 p( 太 | JJ 难以 计算 ， 甚 至 难以 表达 。 每 一 对 态 ， 忆 变量 都 是 w 的 母 节点 。 
这 也 意味 着 当 v 可 被 观察 时 ， 图 模型 包含 了 一 条 连接 访 和 太 的 活跃 路 径 。 因 此 
2D( 姑 | 区 中 所 有 的 隐藏 单元 都 包含 在 了 一 个 巨大 的 团 中 。 如 果 是 高 斯 模型 ， 那 么 这 些 
相互 作用 关系 可 以 通过 协 方差 矩阵 来 高 效 地 建 模 。 然 而 稀 玻 型 先 验 使 得 这 些 相 互 作 
用 关系 并 不 服从 高 斯 分 布 。 

分 布 pl(z | 如 的 难处 理性 导致 了 对 数 似 然 及 其 梯度 也 很 难得 到 。 因 此 我 们 不 能 
使 用 精确 的 最 大 似 然 估 计 来 进行 学 习 。 取 而 代 之 的 是 ， 我 们 通过 MAP 推 朵 以 及 最 
大 化 由 以 到 为 中 心 的 Dirac 分 布 所 定义 而 成 的 ELBO 来 学 习 模型 参数 。 

如 果 我 们 将 训练 集中 所 有 的 回 量 产 拼 成 矩阵 五 ， 并 将 所 有 的 回 量 v 拼 起 来 组 成 
和 矩阵 ,那么 稀 玻 编码 问题 意味 着 最 小 化 

J( 瓦 = 和 | 太 i+》 (7- 瓦 T) . 


2 
因 2 
2 2 














(19.16) 
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为 了 避免 如 极端 小 的 五 和 极端 大 的 食 这 样 的 病态 的 解 ， 大 多 数 稀 玻 编码 的 应 用 包 
含 了 权重 衰减 或 者 对 互 列 范 数 的 限制 。 

我 们 可 以 通过 交替 友 代 ， 分 别 关 于 吾 和 琵 最 小 化 .7 的 方式 来 最 小 化 J。 且 两 
个 子 问题 都 是 凸 的 。 事 实 上 ,关于 研 的 最 小 化 问题 就 是 一 个 线性 回归 问题 。 然 而 关 
于 这 两 个 变量 同时 最 小 化 7 的 问题 通常 并 不 是 凸 的 。 

关于 互 的 最 小 化 问题 需要 某 些 特别 设计 的 算法 ， 例 如 特征 符号 搜索 方法 (Lee 
et al.，2007)。 








19.4 ，” 变 分 推断 和 变 分 学 习 


我 们 已 经 说 明 过 了 为 什么 证 据 下 界 Clw, 9,9) 是 logp(o; 6) 的 一 个 下 界 、 如 何 将 
推断 看 作 是 关于 分 布 9 最 大 化 C 的 过 程 以 及 如 何 将 学 习 看 作 是 关于 参数 0 最 大 化 C 
的 过 程 。 我 们 也 讲 到 了 EM 算法 在 给 定 了 分 布 9 的 条 件 下 能 够 进行 大 学 习 步 又 ， 而 
基于 MAP 推 怕 的 学 习 算 法 则 是 学 习 一 个 z( 疡 | ) 的 点 估计 而 非 推 世 整 个 完整 的 分 
布 。 在 这 里 我 们 介绍 一 些 变 分 学 习 中 更 加 通用 的 算法 。 

变 分 学 习 的 核心 思想 就 是 在 一 个 关于 9 的 有 约束 的 分 布 族 上 最 大 化 C。 选 择 这 
个 分 布 族 时 应 该 考虑 到 计算 下 , log p( 六 w) 的 难 易 度 。 一 个 典型 的 方法 就 是 添加 分 布 
4 如 何 分 解 的 假设 。 

一 种 常用 的 变 分 学 习 的 方法 是 加 入 一 些 限制 使 得 9 是 一 个 因子 分 布 : 


xi 可 = 工 ol (9.17) 























这 被 称 为 均值 场 (mean-field ) 方法 。 更 一 般 地 说 ， 我 们 可 以 通过 选择 分 布 9 的 
形式 来 选择 任何 图 模型 的 结构 ， 通 过 选择 变量 之 间 相 互 作用 的 多 少 来 灵活 地 决定 
近似 程度 的 大 小 。 这 种 完全 通用 的 图 模型 方法 被 称 为 结构 化 变 分 推断 (structured 
variational inference ) (Saul and Jordan, 1996)。 

变 分 方法 的 优点 是 我 们 不 需要 为 分 布 4 设 定 一 个 特定 的 参数 化 形式 。 我 们 设 定 
它 如 何 分 解 ， 之 后 通过 解决 优化 问题 来 找 出 在 这 些 分 解 限制 下 最 优 的 概率 分 布 。 对 
离散 型 潜 变量 来 说 ， 这 意味 着 我 们 使 用 传统 的 优化 技巧 来 优化 描述 分 布 dg 的 有 限 个 
变量 。 对 连续 型 淤 变量 来 说 ， 这 意味 着 我 们 使 用 一 个 被 称 为 变 分 法 的 数学 分 文 工 具 
来 解决 函数 空间 上 的 优化 问题 。 然 后 决定 哪 一 个 函数 来 表示 分 布 9。 变 分 法 是 “ 变 分 
学 习 ” 或 者 “ 变 分 推 新 ”这 些 名 字 的 来 因 ， 尽 管 当 潜 变 量 是 离散 时 变 分 法 并 没有 用 武 
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之 地 。 当 遇 到 连续 型 潜 变 量 时 ， 变 分 法 不 需要 过 多 地 人 工 选 择 模型 ， 是 一 种 很 有 用 
的 工具 。 我 们 只 需要 设 定 分 布 dg 如 何 分 解 ， 而 不 需要 去 猜测 一 个 特定 的 能 够 精确 近 
似 原 后 验 分 布 的 分 布 q。 

因为 C(w, 9,9) 被 定义 成 logp(wg) - Dr(da( 关 | olp( 天 | 人 9))， 我 们 可 以 认为 
关于 9 最 大 化 C 的 问题 等 价 于 (关于 9) 最 小 化 Dr(a( 姑 | 可 lz2( 关 | 切 )。 在 这 种 
情况 下 ， 我 们 要 用 vd 来 拟 合 p。 然 而 ， 与 以 前 方法 不 同 ， 我 们 使 用 KL 散 度 的 相 
反方 向 来 拟 合 一 个 近似 。 当 我 们 使 用 最 大 似 然 估计 来 用 模型 拟 合 数据 时 ， 我 们 最 小 
化 Drr(paatallpmoas)。 如 图 3.6 所 示 ， 这 意味 着 最 大 似 然 鼓 励 模型 在 每 一 个 数据 达 
到 高 概率 的 地 方 达到 高 概率 ， 而 基于 优化 的 推断 则 鼓励 了 9 在 每 一 个 真实 后 验 分 
布 概率 低 的 地 方 概率 较 小 。 这 两 种 基于 KL 散 度 的 方法 都 有 各 自 的 优点 与 缺点 。 选 
择 哪 一 种 方法 取决 于 在 具体 每 一 个 应 用 中 哪 一 种 性 质 更 受 偏 好 。 在 基于 优化 的 推断 
问题 中 ， 从 计算 角度 考虑 ， 我 们 选择 使 用 Drz(d( 声 | 可 lp2(j | 如 )。 具 体 地 说 ， 计 算 
Drr(d( 瑚 | 加 lp( 天 | 切 ) 涉及 到 了 计算 分 布 9 下 的 期 望 。 所 以 通过 将 分 布 9 设计 得 较 
为 简单 ， 我 们 可 以 简化 求 所 需要 的 期 望 的 计算 过 程 。KL 散 度 的 相反 方向 需要 计算 真 
实 后 验 分 布下 的 期 望 。 因 为 真实 后 验 分 布 的 形式 是 由 模型 的 选择 决定 的 ， 所 以 我 们 
不 能 设计 出 一 种 能 够 精确 计算 Drrz(p( 产 | ze( 天 | Z) 的 开销 较 小 的 方法 。 
































19.4.1 ”离散 型 潜 变 量 


关于 离散 型 潜 变 量 的 变 分 推断 相对 来 说 比较 直接 。 我 们 定义 一 个 分 布 9， 通 
分 布 4 的 每 个 因子 都 由 一 些 离散 状态 的 可 查询 表格 定义 。 在 最 简单 的 情况 中 , 刀 
是 二 值 的 并 且 我 们 做 了 均值 场 假定 ， 分 布 dg 可 以 根据 每 一 个 应 分 解 。 在 这 种 情况 
下 ， 我 们 可 以 用 一 个 向 量 疡 来 参数 化 分 布 9， 户 的 每 一 个 元 素 都 代表 一 个 概率 ， 即 
d( 访 = 区 )= 妨 。 

在 确定 了 如 何 表示 分 布 4 以 后 ， 我 们 只 需要 优化 它 的 参数 。 在 离散 型 潜 变量 模 
型 中 ， 这 是 一 个 标准 的 优化 问题 。 基 本 上 分 布 4 的 选择 可 以 通过 任何 优化 算法 解决 ， 
比如 梯度 下 降 算法 。 

因为 它 在 许多 学 习 算 法 的 内 循环 中 出 现 ， 所 以 这 个 优化 问题 必须 可 以 很 快 求解 。 
为 了 追求 速度 ， 我 们 通常 使 用 特殊 设计 的 优化 算法 。 这 些 算 法 通 稼 能 够 在 极 少 的 循 
环 内 解决 一 些小 而 简单 的 问题 。 一 个 常见 的 选择 是 使 用 不 动 点 方程 ， 换 名 话说， 就 
是 解 关 于 户 的 方程 








所 (19.18) 
必 
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我 们 反复 地 更 新 疡 不 同 的 元 素 直 到 满足 收敛 准则 。 

为 了 具体 化 这 些 描 述 ， 我 们 接 下 来 会 讲 如 何 将 变 分 推 新 应 用 到 二 值 稀 朴 编码 
(binary sparse coding ) 模型 ( 这 里 我 们 所 描述 的 模型 是 Henniges et a/. (2010) 提出 
的 ， 但 是 我 们 采用 了 传统 、 通 用 的 均值 场 方法 ， 而 原文 作者 采用 了 一 种 特殊 设计 的 
算法 ) 中 。 数 学 推导 过 程 非常 详细 ， 为 希望 完全 了 解 我 们 描述 过 的 变 分 推 亲 和 变 分 
学 习 高 级 概念 撒 述 的 读者 所 准备 。 而 对 于 并 不 计划 推导 或 者 实现 变 分 学 习 算 法 的 读 
者 来 说 ， 可 以 放心 跳 过 ， 直 接 阅读 下 一 节 ， 这 并 不 会 遗漏 新 的 高 级 概念 。 建 议 那 些 
从 事 二 值 稀 玻 编码 研究 的 读者 可 以 重新 看 一 下 第 3.10 节 中 描述 的 一 些 经 常 在 概率 模 
型 中 出 现 的 有 用 的 函数 性 质 。 我 们 在 推导 过 程 中 随意 地 使 用 了 这 些 性 质 ， 并 没有 特 
别 强调 它们 。 

在 二 值 稀 琉 编码 模型 中 ， 输 入 ve 陈 "， 是 由 模型 通过 添加 高 斯 噪声 到 mm 个 或 
有 或 无 的 不 同 成 分 的 和 而 生成 的 。 每 一 个 成 分 可 以 是 开 或 者 关 的 ， 对 应 着 隐藏 单 
元 灰 E{0,1}7: 























pi 一 1) 一 Co)， (19.19) 
po | 站 =N(o; 卫 几 GD)， (19.20) 





其 中 吃 是 一 个 可 以 学 习 的 俩 置 集 合 ， 研 是 一 个 可 以 学 习 的 权 值 矩阵 ，B 是 一 个 可 以 
学 习 的 对 角 精 度 和 矩阵 。 
使 用 最 大 似 然 来 训练 这 样 一 个 模型 需要 对 参数 进行 求 导 。 我 们 考虑 对 其 中 一 
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个 俩 置 进行 求 导 的 过 程 : 
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(19.21) 
(19.22) 
(19.23) 
(19.24) 
(19.25) 
(19.26) 


(19.27) 


这 需要 计算 p( 户 | 由 下 的 期 望 。 不 幸 的 是 ，p( 姑 | oj 是 一 个 很 复杂 的 分 布 。 关 于 
p( 久 入 | 切 的 图 结构 可 以 参考 图 19.2 。 隐 藏 单元 的 后 验 分 布 对 应 的 是 关于 隐 
藏 单元 的 完全 图 ， 所 以 相对 于 暴力 算法 ， 变 量 消去 算法 并 不 能 有 助 于 提高 计算 期 望 





的 效率 。 








图 19.2: 包含 四 个 隐藏 单元 的 二 值 稀 琉 编码 的 图 结构 。( 左 ) p( 访 的 图 结构 。 要 尘 








后 验 分 布 所 有 隐藏 单元 之 间 都 有 边 。 





我 们 可 以 做 一 个 均值 场 近似， 
oh 可 =TIel 





意 边 是 有 向 的 ， 





每 两 个 隐藏 单元 都 是 每 个 可 见 单元 的 共 父 。( 右 ) p(j o) 的 图 结构 。 为 了 解释 共 父 之 间 的 活跃 路 径 ， 


“AAAY 


(19.28) 


飞 


讲 
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二 值 稀 玻 编码 中 的 潜 变 量 是 二 值 的 ， 所 以 为 了 表示 可 分 解 的 9 我 们 假设 对 mn 
个 Bernoulli 分 布 q(P | w) 建 模 。 表 示 Bernoulli 分 布 的 一 种 很 自然 的 方法 是 使 用 一 
个 概率 向 量 六， 满足 g(j | WJ) = 访 。 为 了 避免 计算 中 的 误差 ， 比 如 说 计算 log 妨 时 ， 
我 们 对 记 : 添加 一 个 约束 ， 即 刀 ， 不 等 于 0 或 者 1。 

我 们 将 会 看 到 变 分 推断 方程 理论 上 永远 不 会 赋予 六 0 或 者 1。 然 而 在 软件 实现 
过 程 中 ， 机 器 的 售 人 误差 会 导致 0 或 者 1 的 值 。 在 二 值 稀 琉 编码 的 软件 实现 中 ， 我 
们 希望 使 用 一 个 没有 限制 的 变 分 参数 向 量 z 以 及 通过 关系 疡 = c(z 来 获得 凡 因此 
通过 使 用 等 式 log o(z) = -6(- 思 ) 来 建立 sigmoid 图 数 和 softplus 函数 的 关系 ， 我 们 
可 以 放心 地 在 计算 机 上 计算 log 久 。 

在 开始 二 值 稀 玻 编码 模型 中 变 分 学 习 的 推导 时 ， 我 们 首先 说 明了 均值 场 近似 的 
使 用 可 以 使 得 学 习 过 程 更 加 简单 。 















































证 据 下 界 可 以 表示 为 

CUw bg (19.29) 
= 了 hellogp(P o)] 十 五 (9) (19.30) 
=Eh~ollogzp(P 十 logplo| 各 一 logd( 玫 | (19.31) 
=Ehs | > logp() 二 > logp(o| 几 一 > logd(u| oj] (19.32) 
= 宛 | 六 Qog co) 二 杨 区 让 忆 人 三 轴 J 全 三 斋 E1 二 j) (19.33) 

十 了 hs 1 至 ee 多 (wi ma (19.34) 
=》， [Pog co) 位 三 sg 区 1 j) (19.35) 


io 二 


十 二 >， 区 号 0 (5 二 2; 7 六 十 >， [2 十 5 mu 二 有 2 
计 1 5 kz 

(19.36) 
尽管 这 些 方程 从 美学 观点 来 看 有 些 不 尽 如 人 意 。 他 们 展示 了 C 可 以 被 表示 为 少量 简 
单 的 代数 运算 。 因 此 证 据 下 界 C 是 易于 处 理 的。 我 们 可 以 把 C 看 作 是 难以 处 理 的 对 
数 似 然 画 数 的 一 个 替代 。 


原则 上 说 ， 我 们 可 以 使 用 关于 v 和 疡 的 梯度 上 升 。 这 会 成 为 一 个 推 新 和 学 习 算 
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法 的 完美 组 合 。 但 是 ,由 于 两 个 原因 , 我 们 往往 不 这 么 做 。 第 一 点 ， 对 每 一 个 风 我们 
需要 存储 九 。 我 们 通常 更 加 偏向 于 那些 不 需要 为 每 一 个 样本 都 准备 内 存 的 算法 。 如 
果 我 们 需要 为 每 一 个 样本 都 存储 一 个 动态 更 新 的 向 量 ， 使 得 算法 很 难处 理 几 十 亿 的 
样本 。 第 二 个 原因 就 是 为 了 能 够 识别 v 的 内 容 ， 我 们 和 希望 能 够 有 能 力 快 速 提取 特征 
六 。 在 实际 应 用 场景 中 ， 我 们 需要 在 有 限时 间 内 计算 出 刀 

由 于 以 上 两 个 原因 ， 我 们 通常 不 会 采用 梯度 下 降 来 计算 均值 场 参数 九 取 而 代 
之 的 是 ， 我 们 使 用 不 动 点 方程 来 快速 估计 。 

不 动 点 方程 的 核心 思想 是 我 们 寻找 一 个 关于 琅 的 局 部 极 大 点 ， 满 足 
VnaCclu 0, 四 = 0。 我 们 无 法 同时 高 效 地 计算 所 有 疡 的 元 素 。 然 而 ， 我 们 可 以 
解决 单个 变量 的 问题 : 




















Cu,6, 癌 =0. (19.37) 





我 们 可 以 和 欠 代 地 将 这 个 解 应 用 到 ;= 1 ,2， 然 后 重复 这 个 循环 直到 我 们 满足 
了 收敛 准则 。 常 见 的 收敛 准则 包含 了 当 整 个 循环 所 改进 的 C 不 超过 预 设 的 容 差 量 时 
停止 ， 或 者 是 循环 中 改变 的 疡 不 超过 某 个 值 时 停止 。 

在 很 多 不 同 的 模型 中 ， 和 迭代 的 均值 场 不 动 点 方程 是 一 种 能 够 提供 快速 变 分 推断 
的 通用 算法 。 为 了 使 它 更 加 具体 ， 我 们 详细 地 讲 一 下 如 何 推导 出 二 值 稀 玻 编码 模型 
的 更 新 过 程 。 

首先 ,我 们 给 出 了 对 访 的 导数 表达 式 。 为 了 得 到 这 个 表达 式 , 我 们 将 式 (19.36) 代 
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人 到 式 (19.37) 的 左边 ; 
O 
一 CU 6, 癌 (19.38) 
9 | 忆 [1 
= 南 久久 togc(o) log 六 )+(L 一 态 )(togc(- 切 一 log(1 一 六 )| (19.39) 
1 [7=1 
1 人 
+ | ee 估 -( 一 2u) TH7 4 天 川 
这 7 尖 太 
(19.40) 
=logc(b) 一 log 太 一 1+log(1 下 ) 十 1 一 logc( 一 已) (19.41) 
也 ] 
+ >》 |0 (om 二 了 用 一 >》， ms 到 瑟 ]| (19.42) 
放 一 1 K 天 1 
= 记 一 log 太 二 log(1 -ji)+or8 人 一 5 一 开 本 58 全 和 (19.43) 
IJ 和 ; 


为 了 应 用 固定 点 更 新 的 推断 规则 ， 我 们 通过 令 式 (19.43) 等 于 0 来 解 访 : 





次 1 克 
和- 开 W2m (19.44) 
JI 天: 





此 时 ， 我 们 可 以 发 现 图 模型 中 的 推断 和 循环 神经 网 络 之 间 存 在 着 紧密 的 联系 。 
具体 地 说 ， 均 值 场 不 动 点 方程 定义 了 一 个 循环 神经 网 络 。 这 个 神经 网 络 的 任务 就 是 
完成 推断 。 我 们 已 经 从 模型 描述 的 角度 介绍 了 如 何 推导 这 个 网 络 ， 但 是 直接 训练 这 
个 推导 网 络 也 是 可 行 的 。 有 关 这 种 思路 的 一 些 想法 在 第 二 十 章 中 有 所 描述 。 

在 二 值 稀 玻 编码 模型 中 ， 我 们 可 以 发 现 式 (19.44) 中 描述 的 循环 网 络 连 接 包含 
了 根据 相 邻 隐藏 单元 变化 值 来 反复 更 新 当前 隐藏 单元 的 操作 。 输 入 层 通常 给 隐藏 单 
元 发 送 一 个 固定 的 信息 w 8 三 ， 然 而 隐藏 单元 不 断 地 更 新 互相 传送 的 信息 。 有 具体 地 
说 ， 当 思 和 各 两 个 单元 的 权重 向 量 平 行 时 ， 它 们 会 互相 抑制 。 这 也 是 一 种 形式 的 
竞争 一 一 两 个 解释 输入 的 隐藏 单元 之 间 ， 只 有 一 个 解释 得 更 好 的 才 被 允许 继续 保持 
活跃 。 在 二 值 稀 玻 编码 的 后 验 分 布 中 ,均值 场 近似 试图 捕获 到 更 多 的 相 消解 释 相 互 
作用 ， 从 而 产生 了 这 种 竞争 。 事 实 上 ， 相 消解 释 效 应 会 产生 一 个 多 峰值 的 后 验 分 布 ， 
以 致 于 如 果 我 们 从 后 验 分 布 中 采样 ， 一 些 样本 在 一 个 单元 是 活跃 的 ， 其 他 的 样本 在 
另 一 个 单元 活跃 ， 只 有 很 少 的 样本 能 够 两 者 都 处 于 活 牙 状 态 。 不 幸 的 是 , 相 消解 释 作 
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用 无 法 通过 均值 场 中 因子 分 布 4 来 建 模 ， 因 此 建 模 时 均值 场 近似 只 能 选择 一 个 峰值 。 
这 个 现象 的 一 个 例子 可 以 参考 图 3.6 。 


我 们 将 式 (19.44) 重 写成 等 价 的 形式 来 揭示 一 些 次 层 的 含义 : 


it 人 (aa (19.45) 
在 这 种 新 的 形式 中 ,我 们 可 以 将 v 一 守 疡 ， 柱 ,) 思 看 作 是 输入 ， 而 不 是 v。 因 此 ,我 
们 可 以 把 第 守 个 单元 视 作 给 定 其 他 单元 编码 时 给 v 中 的 剩余 误差 编码 。 由 此 我 们 可 
以 将 稀 琉 编码 视 作 是 一 个 迭代 的 自 编 码 器 ， 将 输入 反复 地 编码 解码 ， 试 图 在 每 一 轮 
迭代 后 都 能 修复 重 构 中 的 误差 。 

在 这 个 例子 中 ， 我 们 已 经 推导 出 了 每 一 次 更 新 单个 结 点 的 更 新 规则 。 如 果 能 够 
同时 更 新 更 多 的 结 点 ， 那 会 更 令 人 满意 。 某 些 图 模型 ， 比 如 深度 玻 尔 效 曼 机 ， 我 们 
可 以 同时 解 出 疡 中 的 许多 元 素 。 不 幸 的 是 ， 二 值 稀 琉 编码 并 不 适用 这 种 块 更 新 。 取 
而 代 之 的 是 ,我们 使 用 一 种 被 称 为 衰减 (damping ) 的 启发 式 技巧 来 实现 块 更 新 。 
在 衰减 方法 中 ， 对 记 中 的 每 一 个 元 素 我 们 都 可 以 解 出 最 优 值 ， 然 后 对 于 所 有 的 值 都 
在 这 个 方向 上 移动 一 小 步 。 这 个 方法 不 能 保证 每 一 步 都 能 增加 C， 但 是 对 于 许多 模 
型 都 很 有 效 。 关 于 在 信息 传输 算法 中 如 何 选择 同步 程度 以 及 使 用 衰减 策略 可 以 参考 
Koller and Friedman (2009) 。 


























19.4.2 “” 变 分 法 





在 继续 介绍 变 分 学 习 之 前 ， 我 们 有 必要 简单 地 介绍 一 种 变 分 学 习 中 重要 的 数学 
工具 : 变 分 法 (calculus of variations )。 

许多 机 器 学 习 的 技巧 是 基于 寻找 一 个 输入 向 量 2 e 了 " 来 最 小 化 冰 数 7J(0)， 
使 得 它 取 到 最 小 值 。 这 个 步骤 可 以 利用 多 元 微 积分 以 及 线性 代数 的 知识 找到 满足 
VeJ(9) = 0 的 临界 点 来 完成 。 在 某 些 情况 下 ,我 们 和 硕 望 能 够 解 一 个 函数 娓 四 ， 比 如 
当 我 们 和 希望 找到 一 些 随 机 变量 的 概率 密度 冰 数 时 。 正 是 变 分 法 能 够 让 我 们 完成 这 个 
目标 。 

函数 三 的 函数 被 称 为 泛 函 (functional ) .J[ 几 。 正 如 我 们 许多 情况 下 对 一 个 函 
数 求 关于 以 向 量 的 元 素 为 变量 的 偏 导数 一 样 ， 我 们 可 以 使 用 泛 函 导数 (functional 
derivative )， 即 在 任意 特定 的 z 值 ， 对 一 个 泛 冰 JJ 月 求 关于 机 数 /z) 的 导数 ， 这 
也 被 称 为 变 分 导数 ( variational derivative )。 泛 函 .7 的 关于 函数 上 在 点 zz 处 的 谤 函 
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泪 
二 
旗 


导数 被 记 作 7 7 
完整 正式 的 泛 函 导数 的 推导 不 在 本 书 的 范围 之 内 。 对 于 我 们 的 目标 而 言 ， 了 解 
可 微分 函数 f(a) 以 及 带 有 连续 导数 的 可 微分 函数 g(y,z) 就 足够 了 : 
0 


也 辣 /aatz= 世 oa 吕 09.4 


为 了 使 上 述 等 式 更 加 直观 ， 我 们 可 以 把 六 z) 看 作 是 一 个 有 着 无 穷 不 可 数 多 元 素 的 向 
量 ， 由 一 个 实数 向 量 z 表示 。 在 这 里 《看 作 是 一 个 不 完全 的 介绍 )， 这 种 关系 式 中 描 
述 的 泛 函 导数 和 向 量 be 及 "的 导数 相同 





O O . 
5 229(0 了)= 有 9(05 让 (19.47) 
了 了 人 





在 其 他 机 器 学 习 文 献 中 的 许多 结果 则 使 用 了 更 为 通用 的 欧 拉 - 拉 格 朗 日 方程 (Euler- 
Lagrange Equation )， 它 能 够 使 得 9 不 仅 依赖 于 太 的 值 ， 还 依赖 于 广 的 导数 。 但 是 
在 本 书 中 我 们 不 需要 这 个 通用 版 本 。 

为 了 关于 一 个 回 量 优化 某 个 函数 ， 我 们 求 出 了 这 个 函数 关于 这 个 回 量 的 梯度 ， 
然后 找 这 个 梯度 中 每 一 个 元 素 都 为 0 的 点 。 类 似 地 ， 我 们 可 以 通过 寻找 一 个 函数 使 
得 泛 函 导数 的 每 个 点 都 等 于 0 从 而 来 优化 一 个 泛 函 。 

下 面 介 绍 一 个 该 过 程 如 何 运 行 的 例子 ， 我 们 考虑 寻找 一 个 定义 在 ze 了 到 上 的 有 
最 大 微分 箭 的 概率 密度 函数 。 我 们 回 过 头 来 看 一 下 一 个 概率 分 布 p(z) 的 和 ， 定 义 如 
下 : 











万 四 = -Elogp(z). (19.48) 





对 于 连续 的 值 ， 这 个 期 望 可 以 被 看 作 一 个 积分 : 
短 庆 六 1/ 人 (19.49) 


我 们 不 能 简单 地 仅仅 关于 函数 p(z) 最 大 化 互 四 ， 因 为 那样 的 话 结果 可 能 不 是 一 
个 概率 分 布 。 为 了 解决 这 个 问题 ， 我 们 需要 使 用 一 个 拉 格 明日 乘 子 来 添加 一 个 分 布 
2(z) 积分 值 为 1 的 约束 。 同 样 地 ， 当 方差 增 大 时 ， 焙 也 会 无 限制 地 增加 。 因 此 ， 寻 
找 哪 一 个 分 布 有 最 大 彤 这 个 问题 是 没有 意义 的 。 但 是 ， 在 给 定 固定 的 方差 c2 时 ,我 
们 可 以 寻找 一 个 最 大 灶 的 分 布 。 最 后 ， 这 个 问题 还 是 从 定 的 ， 因 为 在 不 改变 焙 的 条 
件 下 一 个 分 布 可 以 被 随意 地 改变 。 为 了 获得 一 个 唯一 的 解 ， 我 们 再 加 一 个 约束 : 分 
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布 的 均值 必须 为 4W。 那 么 这 个 问题 的 拉 格 朗 日 省 范 如 下 : 
关 卫 宇 ai( /oar -]+Ma 


= /apa+Mpjz+aape- 呈 -plojogpmjaz 一 和 一 oa 一 oo 




















如 一 人 十 Xs 开 (zz 一 六 ] 一 c) 十 五 加 (19.50) 














(19.51) 
为 了 关于 2 最 小 化 拉 格 朗 日 乘 子 ， 我 们 令 泛 函 导数 等 于 0: 
VZ， 站 H X2Z 十 Xa(2 一 /一 1 一 logp(z) = 0. (19.52) 


0D(Z) 


这 个 条 件 告诉 我 们 P(z) 的 泛 函 形式 。 通 过 代数 运算 重组 上 述 方程 ， 我 们 可 以 得 
到 





p(zZ) =exp (Xi 二 Xaz 十 》Xs(z 一 /一 了 . (19.53) 


我 们 并 没有 直接 假设 pz(z) 取 这 种 形式 ， 而 是 通过 最 小 化 泛 函 从 理论 上 得 到 了 这 
个 plz) 的 表达 式 。 为 了 解决 这 个 最 小 化 问题 ， 我 们 需要 选择 的 值 来 确保 所 有 的 约 
束 都 能 够 满足 。 我们 有 很 大 的 自由 去 选择 。 因 为 只 要 满足 约束 , 拉 格 朗 日 关于 入 这 
个 变量 的 梯度 就 为 0。 为 了 满足 所 有 的 约束 ,我们 可 以 令 N = 1 log cv 于 ,Xa = 0， 
》a = 一 六 ， 从 而 得 到 














D(zZ) = (zi 1 a2). (19.54) 





这 也 是 当 我 们 不 知道 真实 的 分 布 时 总 是 使 用 正 态 分 布 的 一 个 原因 。 因 为 正 态 分 布 拥 
有 最 大 的 箭 ,我 们 通过 这 个 假定 来 保证 了 最 小 可 能 量 的 结构 。 

当 寻 找 箭 的 拉 格 朗 日 泛 函 的 临界 点 并 且 给 定 一 个 固定 的 方差 时 ， 我 们 只 能 找到 
一 个 对 应 最 大 灶 的 临界 点 。 那 最 小 化 箭 的 概率 密度 郴 数 是 什么 样 的 呢 ? 为 什么 我 们 
无 法 发 现 对 应 着 极 小 点 的 第 二 个 临界 点 呢 ? 原因 是 没有 一 个 特定 的 函数 能 够 达到 最 
小 的 箭 值 。 当 函数 把 越 多 的 概率 密度 加 到 zz =/+Ta 和 7z= 人 =- 两 个 点 上 ， 越 少 的 
概率 密度 到 其 他 点 上 时 ， 它 们 的 业 值 会 减少 ， 而 方差 却 不 变 。 然 而 任何 把 所 有 的 权 
重 都 放 在 这 两 点 的 图 数 的 积分 都 不 为 1， 不 是 一 个 有 效 的 概率 分 布 。 所 以 不 存在 一 
个 最 小 灼 概率 密度 函数 ， 就 像 不 存在 一 个 最 小 的 正 实数 一 样 。 然 而 ， 我 们 发 现存 
在 一 个 收敛 的 概率 分 布 的 序列 ， 收 敛 到 权重 都 在 两 个 点 上 。 这 种 情况 能 够 退化 为 混 
合 Dirac 分 布 。 因 为 Dirac 分 布 并 不 是 一 个 单独 的 概率 密度 函数 ， 所 以 Dirac 分 布 或 
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者 混合 Dirac 分 布 并 不 能 对 应 函数 空间 的 一 个 点 。 所 以 对 我 们 来 说 ， 当 寻找 一 个 泛 
函 导 数 为 0 的 函数 空间 的 点 时 ， 这 些 分 布 是 不 可 见 的 。 这 就 是 这 种 方法 的 局 限 之 处 。 
诸如 Dirac 分 布 这 样 的 分 布 可 以 通过 其 他 方法 被 找到 ， 比 如 可 以 先 猜测 一 个 解 ， 然 后 
证 明 它 是 满足 条 件 的 。 








好 


19.4.3 ”连续 型 潜 变 


当 我 们 的 图 模型 包含 连续 型 淤 变量 时 ， 我 们 仍然 可 以 通过 最 大 化 C 进行 变 分 推 
断 和 变 分 学 习 。 然 而 ， 我 们 需要 使 用 变 分 法 来 实现 关于 4( 瑚 | ) 最 大 化 C。 

在 大 多 数 情 况 下 ， 人 研究 者 并 不 需要 解决 任何 变 分 法 的 问题 。 取 而 代 之 的 是 , 均 
值 场 固 定点 迭代 更 新 有 一 个 通用 的 方程 。 如 果 我 们 做 了 均值 场 近似 : 














d| 二 [sw: | 相 )， (19.55) 


并 且 对 任何 的 了 天 :固定 q( 访 | 可， 那么 只 需要 满足 分 布 p 中 任何 联合 分 布 变量 的 
概率 值 不 为 0， 我 们 就 可 以 通过 归 一 化 下 面 这 个 未 归 一 的 分 布 











6(7a |o) =exp (En ,on iologzw 站) (19.56) 





来 得 到 最 优 的 q(7 | 妃 。 在 这 个 方程 中 计算 期 望 就 能 得 到 正确 的 g( 亡 | ) 的 表达 式 。 
我 们 只 有 在 希望 提出 一 种 新 形式 的 变 分 学 习 算 法 时 才 需 要 使 用 变 分 法 来 直接 推导 4 
的 函数 形式 。 式 (19.56) 给 出 了 适用 于 任何 概率 模型 的 均值 场 近似 。 

式 (19.56) 是 一 个 不 动 点 方程 ， 对 每 一 人 个; 它 都 被 迭代 地 反复 使 用 直到 收敛 。 然 
而 ， 它 还 包含 着 更 多 的 信息 。 它 还 包含 了 最 优 解 取 到 的 泛 函 形式 ， 无 论 我 们 是 否 能 
够 通过 不 动 点 方程 来 解 出 它 。 这 意味 着 我 们 可 以 利用 方程 中 的 泛 函 形式 ， 把 其 中 一 
些 值 当成 参数 ， 然 后 通过 任何 我 们 想 用 的 优化 算法 来 解决 这 个 问题 。 

我 们 拿 一 个 简单 的 概率 模型 作为 例子 ， 甚 中 潜 变 量 满足 产 e 了 2， 可 见 变量 只 有 
一 个 v。 假 设 z( 了 = ( 庆 0 站 以 及 po 站 = 人 Wi 疡 世 ,我 们 可 以 积 掉 天 来 简 
化 这 个 模型 ， 结 果 是 关于 的 高 斯 分 布 。 这 个 模型 本 身 并 不 有 趣 。 只 是 为 了 说 明 变 
分 法 如 何 应 用 在 概率 建 模 之 中 ， 我 们 才 构造 了 这 个 模型 。 
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忽略 归 一 化 常数 时 ， 真 实 的 后 验 分 布 如 下 : 





(及 | 可 (19.57) 
ccD( 甩 了 ) (19.58) 
=D(Ai)p(Pz)pu | 站 (19.59) 
cexp 人 5 了 十 (人 一 Pi 一 jato2)]) (19.60) 











一 exp ( 5 肛 十 好 十 民 邮 士民 轨 一 2o7aaol -2ojpaus 十 2Patotjatos])， 
(19.61) 
在 上 式 中 ,我 们 发 现 由 于 带 有 户 ,j 乘积 项 的 存在 ， 真 实 的 后 验 并 不 能 关于 太 , 和 
分 解 。 
应 用 式 (19.56) ， 我 们 可 以 得 到 





























5 | (19.62) 
一 exp (Enho~otololog5(u, 及) (19.63) 
=emp ( -jaooa 加 FF 712 十 轨 十 jaO2 十 Pa02 (19.64) 

一 2ojaaol -20jauoa 十 27atoxjavos]) (19.65) 








从 这 里 ,我 们 可 以 发 现 其 中 我 们 只 需要 从 g(jPa | ) 中 获得 两 个 有 效 值 : 了 Realo[pa] 


























和 也 wuia[i。 把 这 两 项 记 作 (j2》 和 ( 尼 ) ， 我 们 可 以 得 到 
5 人 | 一 ep 全 二 (风土 中 十 大 旺 二 全) (19.66) 
2 2VA12zU1 人 2Vu(j2z)102 夺 2A12U1 (Rat0a])， (19.67) 


从 这 里 ， 我 们 可 以 发 现 * 的 泛 函 形式 满足 高 斯 分 布 。 因 此 ， 我 们 可 以 得 到 
da( 刀 | 三 Wi， 其 中 A 和 对 角 的 B 是 变 分 参数 ， 我 们 可 以 使 用 任何 方法 
来 优化 它 。 有 必要 再 强调 一 下 ， 我 们 并 没有 假设 9 是 一 个 高 斯 分 布 ， 这 个 高 斯 的 形 
式 是 使 用 变 分 法 来 关于 分 布 9 最 大 化 C 而 推导 出 来 的 。 在 不 同 的 模型 上 应 用 相同 的 
方法 可 能 会 得 到 不 同 泛 函 形式 的 分 布 q。 

当然 ， 上 述 模型 只 是 为 了 说 明 情 况 的 一 个 简单 例子 。 深 度 学 习 中 关于 变 分 学 习 
中 连续 型 变量 的 实际 应 用 可 以 参考 Goodfellow et o/. (20131f)。 
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19.4.4 学习 和 推断 之 间 的 相互 作用 
在 学 习 算 法 中 使 用 近似 推 斯 会 影响 学 习 的 过 程 ， 反 过 来 学 习 的 过 程 也 会 影响 推 
盯 算 法 的 准确 性 。 
具体 来 说 ， 训 练 算 法 倾向 于 朝 使 得 近似 推断 算法 中 的 近似 假设 变 得 更 加 真实 的 
方向 来 适应 模型 。 当 训练 参数 时 ， 变 分 学 习 增 加 




















BEh ylog P(v, 万 ). (19.68) 


对 于 一 个 特定 的 v， 对 于 4( 产 | v) 中 概率 很 大 的 产 它 增加 了 p( 严 | 切 ; 对 于 4( 产 | 要 
中 概率 很 小 的 疡 它 减 小 了 p( 姑 | )。 

这 种 行为 使 得 我 们 做 的 近似 假设 变 得 合理 。 如 果 我 们 用 单 峰值 近似 后 验 来 训练 
模型 ， 那 么 所 得 具有 真实 后 验 的 模型 会 比 我 们 使 用 精确 推断 训练 模型 获得 的 模型 更 
接近 单 峰值 。 

因此 ,估计 变 分 近似 对 模型 的 破坏 程度 是 很 困难 的 。 存 在 几 种 估计 log p(o) 的 方 
式 。 通 常 我 们 在 训练 模型 之 后 估计 log p(w; 9)， 然 后 发 现 它 和 C(w, 9,9) 的 差距 是 很 
小 的 。 从 这 里 我 们 可 以 得 出 结论 , 对 于 特定 的 从 学 习 过程 中 获得 的 9 来 说 , 变 分 近似 

是 很 准确 的 。 然 而 我 们 无 法 直接 得 到 变 分 近似 普遍 很 准确 或 者 变 分 近似 几乎 不 会 对 
学 习 过 程 产生 任何 负面 影响 这 样 的 结论 。 为 了 准确 衡量 变 分 近似 帝 来 的 危害 ， 我 们 
需要 知道 0* = maxelogp(uoib)。C(u0,9) slogp(uig) 和 1logp(oi0) 入 logp(u; 07) 
同时 成 立 是 有 可 能 的 。 如 果 存 在 maxvy C(uw0*,9) 和 logp(ui65)， 即 在 0* 点 处 后 验 
分 布 太 过 复杂 使 得 y 分 布 族 无 法 准确 描述 ， 那 么 学 习 过 程 永远 无 法 到 达 0*。 这 样 的 
一 类 问题 是 很 难 发 现 的 ， 因 为 具有 在 我 们 有 一 个 能 够 找到 0* 的 较 好 的 学 习 算 法 时 ， 
才能 确定 地 进行 上 述 的 比较 。 
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我 们 已 经 看 到 了 推 产 可 以 被 视 作 一 个 增加 函数 C 值 的 优化 过 程 。 显 式 地 通 
过 和 迭代 方法 〈 比 如 不 动 点 方程 或 者 基于 梯度 的 优化 算法 ) 来 进行 优化 的 过 程 通常 
是 代价 很 高 且 耗 时 巨大 的 。 通 过 学 习 一 个 近似 推断 ， 许 多 推 肠 算法 避免 了 这 种 
代价 。 具 体 地 说 ， 我 们 可 以 将 优化 过 程 视 作 将 一 个 输入 v 投影 到 一 个 近似 分 布 
= argmaxy C(u,9) 的 一 个 太 的 函数 。 一 旦 我 们 将 多 步 的 欠 代 优化 过 程 看 作 是 一 
函数 ， 我 们 可 以 用 一 个 近似 函数 为 /w; 9) 的 神经 网 络 来 近似 它 。 
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19.5.1 本 眼 算 法 


训练 一 个 可 以 用 v 来 推断 疡 的 模型 的 一 个 主要 难点 在 于 我 们 没有 一 个 监督 训 
练 集 来 训练 模型 。 给 定 一 个 v， 我 们 无 法 获知 一 个 合适 的 凡 。 从， 到 疡 的 映射 依赖 
于 模型 族 的 选择 ， 并 且 在 学 习 过 程 中 随 着 0 的 改变 而 变化 。 醒 眠 (wake sleep ) 算 
法 (Hinton et aol.，1995b; Frey et al.,，1996) 通过 从 模型 分 布 中 抽取 vv 和 疡 的 样本 来 
解决 这 个 问题 。 例 如 ， 在 有 向 模型 中 ， 这 可 以 通过 执行 从 瑚 开始 并 在 v 结束 的 原始 
采样 来 高 效 地 完成 。 然 后 这 个 推 新 网 络 可 以 被 训练 来 执行 反 向 的 映射 : 预测 哪 一 个 
天 产生 了 当前 的 v。 这 种 方法 的 主要 缺点 是 我 们 将 只 能 在 那些 在 当前 模型 上 有 较 高 概 
率 的 v 值 上 训练 推断 网 络 。 在 学 习 早 期 ， 模 型 分 布 与 数据 分 布 偏差 较 大 ， 因 此 推断 
网 络 将 不 具有 在 类 似 数 据 的 样本 上 学 习 的 机 会 。 

在 第 18.2 节 中 ， 我 们 看 到 睡眠 做 梦 在 人 类 和 动 物 中 作用 的 一 个 可 能 解释 是 ， 做 
梦 可 以 提供 蒙特 卡 罗 训 练 算法 用 于 近似 无 向 模型 中 对 数 配 分 轴 数 负 梯 度 的 负 相 样本 。 
生物 做 梦 的 另 一 个 可 能 解释 是 它 提 供 来 自 p( 刀 , wy) 的 样本 ， 这 可 以 用 于 训练 推断 网 络 
在 给 定 v 的 情况 下 预测 刀 。 在 某 些 意 义 上 ， 这 种 解释 比 配 分 轴 数 的 解释 更 令 人 满意 。 
如 果 蒙 特 卡 罗 算 法 仪 使 用 梯度 的 正 相 运行 几 个 步骤， 然后 仅 对 梯度 的 负 相 运行 几 个 
步 又 ， 那 么 结果 通常 不 会 很 好 。 人 类 和 动物 通常 连续 清醒 几 个 小 时 ， 然 后 连续 睡 着 
儿 个 小 时 。 这 个 时 间 表 如 何 文 持 无 向 模型 的 蒙特 卡 罗 训 练 尚 不 清楚 。 然 而 ， 基 于 最 
大 化 C 的 学 习 算 法 可 以 通过 长 时 间 调整 改进 g 和 长 期 调整 0 来 实现 。 如 果 生 物 做 梦 
的 作用 是 训练 网 络 来 预测 9， 那么 这 解释 了 动物 如 何 能 够 保持 清醒 几 个 小 时 (它们 
清醒 的 时 间 越 长 ，C 和 logp(o) 之 间 的 差 上 越 大 ， 但 是 C 仍然 是 下 限 ) 并 且 睡 眠 几 
个 小 时 〈 生 成 模型 本 身 在 睡眠 期 间 不 被 修改 )， 而 不 损害 它们 的 内 部 模型 。 当 然 ， 这 
些 想法 纯粹 是 猜测 性 的 ， 没 有 任何 确定 的 证 据 表 明 做 梦 实 现 了 这 些 目标 之 一 。 做 梦 
也 可 以 通过 从 动物 的 过 湾 模 型 (用 来 训练 动物 策略 ) 采样 合成 经 验 来 服务 于 强化 学 
习 而 不 是 概率 建 模 。 也 许 睡眠 可 以 服务 于 一 些 机 器 学 习 社 区 尚未 发 现 的 其 他 目的 。 












































19.5.2 ”学 成 推断 的 其 他 形式 





这 种 学 成 近似 推 岂 策 略 已 经 被 应 用 到 了 其 他 模型 中 。Salakhutdinov and 
Larochelle (2010) 证 明了 在 学 成 推 新 网 络 中 的 单 遍 传递 相 比 于 在 座 度 玻 尔 效 曼 机 中 
的 迭代 均值 场 不 动 点 方程 能 够 得 到 更 快 的 推断 。 其 训练 过 程 是 基于 运行 推 产 网 络 的 ， 
然后 运行 一 步 均值 场 来 改进 其 估计 ， 并 训练 推 新 网 络 来 输出 这 个 更 精细 的 估计 以 代 
替 其 原始 估计 。 
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我 们 已 经 在 第 14.8 节 中 看 到 ， 预 测 性 的 稀 玻 分 解 模 型 训练 一 个 浅 层 编 码 需 网 络 ， 
从 而 预测 输入 的 稀 玻 编码 。 这 可 以 被 看 作 是 自 编码 器 和 稀 琉 编码 之 间 的 混合 。 为 模型 
设计 概率 语义 是 可 能 的 ,其 中 编码 器 可 以 被 视 为 执行 学 成 近似 MAP 推 类 。 由 于 其 浅 
层 的 编码 锅 ，PSD 不 能 实现 我 们 在 均值 场 推 央 中 看 到 的 单元 之 间 的 那 种 将 争 。 然 而 ， 
该 问题 可 以 通过 训练 深度 编码 器 实现 学 成 近似 推断 来 补救 ， 如 ISTA 技术 (Gregor 
and LeCun, 2010b)。 

近来 学 成 近似 推 肠 已 经 成 为 了 变 分 自 编 码 器 形式 的 生成 模型 中 的 主要 方法 之 一 
(Kingma, 2013; Rezende et ol.,， 2014)。 在 这 种 优美 的 方法 中 ， 不 需要 为 推 斯 网 络 构 
造 显 式 的 目标 。 反 之 ， 推 断 网 络 仅仅 被 用 来 定义 C， 然 后 调整 推断 网 络 的 参数 来 增 
大 C。 我 们 将 在 第 20.10.3 节 中 详细 介绍 这 种 模型 。 

我 们 可 以 使 用 近似 推断 来 训练 和 使 用 很 多 不 同 的 模型 。 其 中 许多 模型 将 在 下 一 
章 中 描述 。 
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在 本 章 中 ， 我 们 介绍 几 种 具体 的 生成 模型 ， 这 些 模 型 可 以 使 用 第 十 六 章 至 第 十 
九 音 中 出 现 的 技术 构建 和 训练 。 所 有 这 些 模型 在 某 种 程度 上 都 代表 了 多 个 变量 的 概 
率 分 布 。 有 些 模型 允许 显 式 地 计算 概率 分 布 明 数 。 其 他 模型 则 不 允许 直接 评估 概率 
分 布 函 数 ， 但 支持 隐 式 获取 分 布 知识 的 操作 ， 如 从 分 布 中 采样 。 这 些 模型 中 的 一 部 
分 使 用 第 十 六 和 草 中 的 图 模型 语言 ， 从 图 和 因子 的 角度 描述 为 结构 化 概率 模型 。 其 他 
的 不 能 简单 地 从 因子 角度 描述 ， 但 仍然 代表 概率 分 布 。 

















20.1 玻 尔 效 曼 机 


玻 尔 效 曼 机 最 初 作为 一 种 广义 的 “联结 主义 ” 引入 ， 用 来 学 习 二 值 回 量 上 的 任意 
概率 分 布 (Fahlman et al!., 1983; Ackley et al., 1985; Hinton et al., 1984b; Hinton and 
Sejnowski, 1986)。 玻 尔 效 曼 机 的 变 体 (包含 其 他 类 型 的 变量 ) 早已 超过 了 原始 玻 尔 
效 曼 机 的 流行 程度 。 在 本 节 中 ,我 们 简要 介绍 二 值 玻 尔 效 曼 机 并 讨论 训练 模型 和 进 
行 推导 时 出 现 的 问题 。 

我 们 在 cd 维 二 值 随 机 回 量 ze {0,1}4 上 定义 玻 尔 兹 曼 机 。 玻 尔 效 曼 机 是 一 种 基 
于 能 量 的 模型 ( 第 16.2.4 节 )， 意 味 着 我 们 可 以 使 用 能 量 函 数 定义 联合 概率 分 布 ; 
empCE( 

了 ) 
其 中 瓦 (z) 是 能 量 函 数 ，2 是 确保 和 ,P(z) = 1 的 配 分 国 数 。 玻 尔 效 曼 机 的 能 量 琐 














P(a (20.) 





忆 (z) =-zUz 一 D mw (20.2) 





其 中 习 是 模型 参数 的 “权重 ” 抢 阵 ， 是 侦 置 向 量 。 
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在 一 般 设 定 下 ， 给 定 一 组 训练 样本 ， 每 个 样本 都 是 ” 维 的 。 式 (20.1) 摘 述 了 观 
察 到 的 变量 的 联合 概率 分 布 。 虽 然 这 种 情况 显然 可 行 ， 但 它 限 制 了 观察 到 的 变量 和 
权重 矩阵 描述 的 变量 之 间 相 互 作 用 的 类 型 。 具 体 来 说 ， 这 意味 着 一 个 单元 的 概率 由 
其 他 单元 值 的 线性 模型 ( 逻辑 回归 ) 给 出 。 

当 不 是 所 有 变量 都 能 被 观察 到 时 ,， 玻 尔 效 曼 机 变 得 更 强大 。 在 这 种 情况 下 , 潜 变 
量 类 似 于 多 层 感 知 机 中 的 隐藏 单元 ， 并 模拟 可 见 单元 之 间 的 高 阶 交互 。 正 如 添加 隐 
藏 单 元 将 逻辑 回归 转换 为 MLP， 导 臻 MLP 成 为 函数 的 万 能 近似 器 ， 具 有 隐藏 单 
元 的 玻 尔 效 曼 机 不 再 局 限于 建 模 变 量 之 间 的 线性 关系 。 相 反 ， 玻 尔 效 曼 机 变 成 了 离 
散 变 量 上 概率 质量 函数 的 万 能 近似 器 (Le Roux and Bengio, 2008)。 

正式 地 ， 我 们 将 单元 z 分 解 为 两 个 子 集 : 可 见 单元 v 和 潜在 (或 隐藏 ) 单元 hn 



































五 (站 一 -OP 一 六 一 D ec (20.3) 





玻 尔 将 曼 机 的 学 习 ” 玻 尔 效 曼 机 的 学 习 算 法 通常 基于 最 大 似 然 。 所 有 玻 尔 效 曼 机 都 
具有 难以 处 理 的 配 分 函数 ， 因 此 最 大 似 然 梯度 必须 使 用 第 十 八 章 中 的 技术 来 近似 。 

玻 尔 效 曼 机 有 一 个 有 趣 的 性 质 ,， 当 基于 最 大 似 然 的 学 习 规则 训练 时 , 连接 两 个 单 
元 的 特定 权重 的 更 新 仅 取 决 于 这 两 个 单元 在 不 同 分 布下 收集 的 统计 信息 : Puaoasi(v) 
和 饭 sa(w)Pnaoaa( 玉 | 四。 网 络 的 其 余部 分 参与 塑造 这 些 统计 信息 ， 但 权重 可 以 在 完 
全 不 知道 网 络 其 余部 分 或 这 些 统计 信息 如 何 产生 的 情况 下 更 新 。 这 意味 着 学 习 规 则 
是 “局 部 ”的 ， 这 使 得 玻 尔 效 曼 机 的 学 习 似乎 在 某 种 程度 上 是 生物 学 合理 的 。 我 们 
可 以 设想 每 个 神经 元 都 是 玻 尔 效 曼 机 中 随机 变量 的 情况 ， 那 么 连接 两 个 随机 变量 的 
轴 突 和 树 突 只 能 通过 观察 与 它们 物理 上 实际 接触 细胞 的 激发 模式 来 学 习 。 特 别 地 ， 
正 相 期 间 ， 经 常 同时 激活 的 两 个 单元 之 间 的 连接 会 被 加 强 。 这 是 Hebbian 学 习 规则 
(Hebb, 1949) 的 一 个 例子 , 经 党 总结 为 好 记 的 短语 一 一 “fire together， wire together”。 
Hebbian 学 习 规 则 是 生物 系统 学 习 中 最 古老 的 假设 性 解释 之 一 ， 直 至 今天 仍然 有 重 
大 意义 (Giudice et a1. ,2009)。 

不 仅仅 使 用 局 部 统计 信息 的 其 他 学 习 算 法 似乎 需要 假设 更 多 的 学 习 机 制 。 例 如 ， 
对 于 大 脑 在 多 层 感 知 机 中 实现 的 反 向 传播 ， 似 乎 需要 维持 一 个 辅助 通信 的 网 络 ， 并 
借 此 向 后 传输 梯度 信息 。 已 经 有 学 者 (Hinton, 2007a; Bengio, 2015) 提出 生物 学 上 可 
行 (和 近似 ) 的 反 向 传播 实现 方案 ， 但 仍然 有 竺 验证，Bengio (2015) 还 将 梯度 的 反 
向 传播 关联 到 类 似 于 玻 尔 效 曼 机 (但 具有 连续 潜 变 量 ) 的 能 量 模型 中 的 推 新 。 
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从 生物 学 的 角度 看 , 玻 尔 兹 曼 机 学 习 中 的 负 相 阶段 有 点 难以 解释 。 正 如 第 18.2 节 
所 主张 的 ， 人 类 在 睡眠 时 做 梦 可 能 是 一 种 形式 的 负 相 采样 。 尽 管 这 个 想法 更 多 的 只 


是 猜测 。 


20.2 “ 受 限 玻 尔 效 曼 机 


受 限 玻 尔 效 曼 机 以 委 风 琴 (harmonium ) 之 名 (Smolensky, 1986) 面世 之 后 ,成 
为 了 深度 概率 模型 中 最 常见 的 组 件 之 一 。 我 们 之 前 在 第 16.7.1 节 人 简要 介绍 了 RBM。 
在 这 里 我 们 回顾 以 前 的 内 容 并 探讨 更 多 的 细节 。RBM 是 包含 一 层 可 观察 变量 和 单 
层 潜 变 量 的 无 向 概率 图 模型 。RBM 可 以 扒 和 琶 起 来 〈 一 个 在 另 一 个 的 顶部 ) 形成 更 次 
的 模型 。 图 20.1 展示 了 一 些 例子 。 特 别 地 ,网 20.1 a 显示 RBM 本 身 的 图 结构 。 它 是 
一 个 二 分 图 ， 观 察 层 或 潜 层 中 的 任何 单元 之 间 不 允许 存在 连接 。 

我 们 从 二 值 版 本 的 受 限 玻 尔 效 曼 机 开始 ， 但 如 我 们 之 后 所 见 ， 这 还 可 以 扩展 为 
其 他 类 型 的 可 见 和 隐藏 单元 。 

更 正式 地 说 ， 令 观察 层 由 一 组 w 个 二 值 随 机 变量 组 成 ， 我 们 统称 为 向 量 v。 我 
们 将 mw 个 二 值 随机 变量 的 湾 在 或 隐藏 层 记 为 ]。 

就 像 普 通 的 玻 尔 效 曼 机 ， 受 限 玻 尔 效 曼 机 也 是 基于 能 量 的 模型 ， 其 联合 概率 分 
布 由 能 量 机 数 指定 : 























0 5 三 关 二 记 丰 (20 习 
RBM 的 能 量 函 数 由 下 给 出 


书 (站 = 一 0 一 cv (20.5) 





其 中 2 是 被 称 为 配 分 函数 的 归 一 化 常数 : 
2Z= >》 > exp{-B(w 站 } (20.6) 
了 帮 


从 配 分 函数 2 的 定义 显而易见 ， 计 算 2 的 朴素 方法 〈 对 所 有 状态 进行 穷 举 求 和 ) 计 
算 上 可 能 是 难以 处 理 的 ， 除 非 有 巧妙 设计 的 算法 可 以 利用 概率 分 布 中 的 规则 来 更 快 
地 计算 G。 在 受 限 玻 尔 效 曼 机 的 情况 下 ，Long and Servedio (2010) 正式 证 明 配 分 函 
数 2 是 难 解 的 。 难 解 的 配 分 函数 2 意味 着 归 一 化 联合 概率 分 布 P(u) 也 难以 评 佑 。 
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图 20.1: 可 以 用 受 限 玻 尔 兹 曼 机 构建 的 模型 示例 。(a) 受 限 玻 尔 效 曼 机 本 身 是 基于 二 分 


模型 ， 在 图 的 一 部 分 具有 可 
间 也 没有 任何 连接 。 通 常 每 
卷 积 RBM。(b) 深 度 信 念 网 


的 所 有 局 部 条 件 概率 分 布 者 

















有 几 层 潜 变 量 的 无 向 图 模型 


联系 不 如 DBN 紧密 。 当 从 RBM 


接 。 然 而 ，DBN 具有 多 个 隐藏 层 ， 
直接 复制 RBM 的 
图 表示 次 度 信 念 网 络 ， 但 是 它 需 要 层 内 连接 来 所 





见 单元 ， 另 一 部 分 具有 隐藏 各 
个 可 见 单元 连接 到 多 
络 是 涉及 有 向 和 无 向 连接 的 

















图 的 无 向 图 


元 。 可 见 单元 之 间 没 有 连接 ， 隐 藏 单元 之 





个 隐藏 单元 ， 但 也 可 以 构造 稀 玻 连接 的 RBM， 如 











昆 合 图 模型 。 与 RBM 一 样 ， 它 也 没有 层 内 








因此 隐藏 各 























获 父 证 








元 之 间 的 连接 在 分 开 的 层 中 。 深 度 信念 网 络 所 需 
局 部 条 件 概率 分 布 。 或 者 ， 我 们 


岂可 以 用 完全 无 向 
度 玻 尔 效 曼 机 是 具 








点 间 的 依赖 关系 。(c) 深 

















种 类 的 DBM 可 以 直接 训练 ， 


20.2.1 “条 件 分 布 


虽然 P(o) 难 解 ， 但 RBM 的 二 分 图 结构 具有 非常 特殊 的 性 











。 与 RBM 和 DBN 一 相 
堆栈 初始 化 
而 不 用 先 训练 一 组 RBM。 





 ，DBM 也 缺少 层 内 连接 。DBM 与 RBM 的 
DBM 时 ， 有 必要 对 RBM 的 参数 稍 作 修改 。 某 些 


六 








可 


E 质 ， 件 分 布 


NH 
4 


Ph|v) 和 P(v |b) 是 因子 的 ， 并 且 计 算 和 采样 是 相对 简单 的 。 
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从 联合 分 布 中 导出 条 件 分 布 是 直观 的 : 








忆 (PV 

了 工 革 二 T 

一 五 林 元 exp { vc +TO HP (20.8) 
1 

= 施 exp{e hm+u 研讨 (20.9) 
本 + 机 访 } (20.10) 
1 

三 二 Tem{eg 记 + 本 77 (20.11) 

71 


由 于 我 们 相对 可 见 单元 v 计算 条 件 概 率 ， 相 对 于 分 布 P(h | v) 我 们 可 以 将 它们 视 为 
常数 。 条 件 分 布 P(h | v) 因子 相 乘 的 本 质 ， 我 们 可 以 将 向 量 刀 上 的 联合 概率 写成 单 
独 元 素 岂 上 【未 归 一 化 ) 分 布 的 乘积 。 现 在 原 问题 变 成 了 对 单个 二 值 六 上 的 分 布 
进行 归 一 化 的 简单 问题 








P( 记 =1| 本 == (20.12) 
加 exp{fc 十 全 凡 
Te 可 4 
=a(cj 二 vuI 本 让 (20.14) 
现在 我 们 可 以 将 关于 隐藏 层 的 完全 条 件 分 布 表达 为 因子 形式 : 
-ie( ((28--DO(e+ 本 )) (20.15) 





类 似 的 推导 将 显示 我 们 感 兴趣 的 另 一 条 件 分 布 ，P(v | 站 也 是 因子 形式 的 分 布 : 


-IIe( (20 一 JJO(T+ 环 门 ) (20.16) 


20.2.2 ”训练 受 限 玻 尔 兹 曼 机 


因为 RBM 人 允许 高 效 计算 P(w) 的 估计 和 微分 ， 并 且 还 允许 高 效 地 (以 块 吉 布 
斯 采样 的 形式 ) 进行 MCMC 采样 ， 所 以 我 们 很 容易 使 用 第 十 八 章 中 训练 具有 难以 计 
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算 配 分 函数 的 模型 的 技术 来 训练 RBM。 这 包括 CD、SML (PCD )、 比 率 匹 配 等 。 
与 深度 学 习 中 使 用 的 其 他 无 向 模型 相 比 ，RBM 可 以 相对 直接 地 训练 ， 因 为 我 们 可 以 
以 闭 解 形式 计算 P(h | 要 。 其 他 一 些 深度 模型 ， 如 深度 玻 尔 效 曼 机 ， 同 时 具备 难处 理 
的 配 分 函数 和 难以 推断 的 难题 。 











20.3 ”深度 信念 网 络 


深度 信念 网 络 ( deep belief network, DBN ) 是 第 一 批 成 功 应 用 深度 架构 训练 的 
非 卷 积 模 型 之 一 (Hinton et wL., 2006a; Hinton, 2007b)。2006 年 深度 信念 网 络 的 引入 
开始 了 当前 深度 学 习 的 复兴 。 在 引入 深度 信念 网 络 之 前 ， 深 度 模型 被 认为 太 难 以 优 
化 。 具 有 凸 目标 函数 的 核 机 器 引领 了 研究 前 治 。 深 度 信念 网 络 在 MNIST 数据 集 上 表 
现 超过 内 核 化 支持 向 量 机 ， 以 此 证 明 深 度 架 构 是 能 够 成 功 的 (Hinton et al., 2006a)。 
尽管 现在 与 其 他 无 监督 或 生成 学 习 算 法 相 比 ， 深 度 信 念 网 络 大 多 已 经 失去 了 青睐 并 
很 少 使 用 ， 但 它们 在 深度 学 习 历 史 中 的 重要 作用 仍 应 该 得 到 承认 。 

深度 信念 网 络 是 具有 若干 潜 变 量 层 的 生成 模型 。 潜 变量 通常 是 二 值 的 ， 而 可 见 
单元 可 以 是 二 值 或 实数 。 尽 管 构 造 连接 比较 稀 玻 的 DBN 是 可 能 的 , 但 在 一 般 的 模型 
中 ， 每 层 的 每 个 单元 连接 到 每 个 相 邻 层 中 的 每 个 单元 (没有 层 内 连接 )。 顶 部 两 层 之 
间 的 连接 是 无 向 的 。 而 所 有 其 他 层 之 间 的 连接 是 有 向 的 ， 箭 头 指向 最 接近 数据 的 层 。 
见 图 20.1b 的 例子 。 

具有 ! 个 隐藏 层 的 DBN 包含 ! 个 权重 矩阵 :全 人 ,了 有)。 同 时 也 包含 1+1 
个 偏 置 向 量 ; 六 0 ,50 ， 其 中 bo) 是 可 见 层 的 偏 置 。DBN 表示 的 概率 分 布 由 下 式 
给 出 : 





















































PPO RD) xcexp (BO PO 十 BRCD 二 RD TONO)， (20.17) 
PN =1| RED) 一 (DT 二 TCD NtD) VEL 一 2 (20.19) 


1 了 


Puw =1|PD) = (oo + 了 罗 NMD) Vi (20.19) 





在 实 值 可 见 单元 的 情况 下 ， 蔡 换 


vw~N(wbO + 卫 0 NAD,BD (20.20) 





为 便于 处 理 ，6 为 对 角形 式 。 至 少 在 理论 上 ， 推 广 到 其 他 指数 族 的 可 见 单元 是 直观 
的 。 只 有 一 个 隐藏 层 的 DBN 只 是 一 个 RBM。 
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为 了 从 DBN 中 生成 样本 ， 我 们 先 在 顶部 的 两 个 隐藏 层 上 运行 几 个 Gibbs 采 
样 步骤。 这 个 阶段 主要 从 RBM (由 顶部 两 个 隐藏 层 定义 ) 中 采 一 个 样本 。 然 后 ,我 
们 可 以 对 模型 的 其 余部 分 使 用 单 次 原始 采样 ， 以 从 可 见 单元 绘制 样本 。 

深度 信念 网 络 引 发 许多 与 有 向 模型 和 无 向 模型 同时 相关 的 问题 。 

由 于 每 个 有 向 层 内 的 相 消解 释 效应 ， 并 且 由 于 无 向 连接 的 两 个 隐藏 层 之 间 的 相 
互 作 用 , 深度 信念 网 络 中 的 推断 是 难 解 的 。 评估 或 最 大 化 对 数 似 然 的 标准 证 据 下 界 也 
是 难以 处 理 的 ， 因 为 证 据 下 界 基 于 大 小 等 于 网 络 宽 度 的 团 的 期 望 。 

评估 或 最 大 化 对 数 似 然 , 不 仅 需 要 面 对 边 缘 化 潜 变量 时 难以 处 理 的 推 斯 问题， 而 
且 还 需要 处 理 顶 部 两 层 无 向 模型 内 难处 理 的 配 分 困 数 问题 。 

为 训练 深度 信念 网 络 ， 我 们 可 以 先 使 用 对 比 散 度 或 随机 最 大 似 然 方法 训 
练 RBM 以 最 大 化 下。logp(wj。RBM 的 参数 定义 了 DBN 第 一 层 的 参数 。 
然后 ， 第 二 个 RBM 训练 为 近似 最 大 化 



































和 二 二 各 ED)wpG) (Pu) log D(2) (RD)， (20.21) 


其 中 pt) 是 第 一 个 RBM 表示 的 概率 分 布 ，p(2) 是 第 二 个 RBM 表示 的 概率 分 布 。 
换 句 话说 ， 第 二 个 RBM 被 训练 为 模拟 由 第 一 个 RBM 的 隐藏 单元 采样 定义 的 分 布 ， 
而 第 一 个 RBM 由 数据 驱动 。 这 个 过 程 能 无 限 重复 ， 从 而 向 DBN 添加 任意 多 层 ， 其 
中 每 个 新 的 RBM 对 前 一 个 RBM 的 样本 建 模 。 每 个 RBM 定义 DBN 的 另 一 层 。 这 
个 过 程 可 以 被 视 为 提高 数据 在 DBN 下 似 然 概率 的 变 分 下 界 (Hinton et al1., 2006a)。 

在 大 多 数 应 用 中 , 对 DBN 进行 贪心 逐 层 训 练 后 ， 不 需要 再 花 功夫 对 其 进行 联合 
训练 。 然 而 ， 使 用 醒 眠 算法 对 其 进行 生成 精 调 是 可 能 的 。 

训练 好 的 DBN 可 以 直接 用 作 生 成 模型 ,但 是 DBN 的 大 多 数 兴 趣 来 自 于 它们 改 
进 分 类 模型 的 能 力 。 我 们 可 以 从 DBN 获取 权重 ， 并 使 用 它们 定义 MLP; 





























Ph = (0 or 了 加)， (20.22) 
PhO = (0 二 RD WO) VE2 mm (20.23) 





利用 DBN 的 生成 训练 后 获得 的 权重 和 侦 置 初始 化 该 MLP 之 后 ， 我 们 可 以 训练 
该 MLP 来 执行 分 类 任务 。 这 种 MLP 的 额外 训练 是 判别 性 精 调 的 示例 。 

与 第 十 九 章 中 从 基本 原理 导出 的 许多 推 斯 方程 相 比 ， 这 种 特定 选择 的 MLP 有 
些 随 意 。 这 个 MLP 是 一 个 局 发 式 选择 ， 似 乎 在 实践 中 效果 不 错 ,， 并 在 文献 中 一 贯 使 
用 。 许 多 近似 推断 技术 是 由 它们 在 一 些 约 束 下 ， 并 在 对 数 似 然 上 找到 最 大 紧 变 分 下 
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界 的 能 力 所 驱 动 的 。 我 们 可 以 使 用 DBN 中 MLP 定义 的 隐藏 单元 的 期 望 ， 构 造 对 数 
似 然 的 变 分 下 界 ， 但 这 对 于 隐藏 单元 上 的 任何 概率 分 布 都 是 如 此 ， 并 没有 理由 相信 
该 MLP 提供 了 一 个 特别 的 紧 界 。 特 别 地 ，MLP 忽略 了 DBN 图 模型 中 许多 重要 的 
相互 作用 。MLP 将 信息 从 可 见 单元 向 上 传播 到 最 深 的 隐藏 单元 ， 但 不 向 下 或 侧 向 传 
播 任何 信息 。DBN 图 模型 解释 了 同一 层 内 所 有 隐藏 单元 之 间 的 相互 作用 以 及 层 之 间 
的 自 顶 向 下 的 相互 作用 。 

虽然 DBN 的 对 数 似 然 是 难处 理 的 , 但 它 可 以 使 用 AIS 近似 (Salakhutdinov and 
Murray, 2008)。 通 过 近似 ， 可 以 评估 其 作为 生成 模型 的 质量 。 

术语 “深度 信念 网 络 ” 通常 不 正确 地 用 于 指 代 任 意 种 类 的 深度 神经 网 络 ， 甚 至 没 
有 潜 变 量 意义 的 网 络 。 这 个 术语 应 特 指 最 深层 中 具有 无 向 连接 ， 而 在 所 有 其 他 连续 
层 之 间 存 在 向 下 有 向 连接 的 模型 。 

这 个 术语 也 可 能 导致 一 些 混乱 ， 因 为 术语 “信念 网 络 ” 有 时 指 纯粹 的 有 向 模 
型 ， 而 深度 信念 网 络 包含 一 个 无 向 层 。 深 度 信 念 网 络 也 与 动态 帆 叶 斯 网 络 (dynamic 
Bayesian networks ) (Dean and Kanazawa, 1989) 共享 首 字 母 缩 写 DBN ， 动 态 贝 叶 
斯 网 络 表 示 马 尔 可 夫 链 的 贝 叶 斯 网 络 。 














20.4 深度 玻 尔 效 曼 机 


深度 玻 尔 效 曼 机 ( Deep Boltzmann Machine, DBM ) (Salakhutdinov and Hin- 
ton，2009a) 是 另 一 种 深度 生成 模型 。 与 深度 信念 网 络 (DBN ) 不 同 的 是 ， 它 是 一 
个 完全 无 向 的 模型 。 与 RBM 不 同 的 是 ，DBM 有 几 层 潜 变量 (RBM 只 有 一 层 )。 
但 是 像 RBM 一 样 ， 每 一 层 内 的 每 个 变量 是 相互 独立 的 ， 并 条 件 于 相 邻 层 中 的 变 
量 。 见 图 20.2 中 的 图 结构 。 深 度 玻 尔 效 曼 机 已 经 被 应 用 于 各 种 任务 ， 包 括 文档 建 模 
(Srivastava et al.，2013)。 

与 RBM 和 DBN 一 样 ，DBM 通常 仅 包含 二 值 单元 〈 正 如 我 们 为 简化 模型 的 演 
示 而 假设 的 )， 但 很 容易 就 能 扩展 到 实 值 可 见 单元 。 

DBM 是 基于 能 量 的 模型 ， 这 意味 着 模型 变量 的 联合 概率 分 布 由 能 量 冰 数 五 参 
数 化 。 在 一 个 深度 玻 尔 效 曼 机 包含 一 个 可 见 层 v 和 三 个 隐藏 层 zaD) ,j2) 和 有 2) 的 情 
况 下 ， 联 合 概率 由 下 式 给 出 : 














P(o, PR2) ,7j3)) 一 exp ( 一 已 (w PDM， 72); 9)). (20.24) 





1 
2(0) 
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图 20.2: 具有 一 个 可 见 层 (底部 ) 和 两 个 隐藏 层 的 次 度 玻 尔 兹 曼 机 的 图 模型 。 仅 在 相 邻 层 的 单元 之 
间 存 在 连接 。 没 有 层 内 连接 。 























小 


为 简化 表示 ， 下 式 省 略 了 偏 置 参数 。DBM 能 量 函 数 定义 如 下 : 


(wo NOD ,Po je0;6) = 一 oTTTODRD 一 7PD TOP -Ne2 全 7 (20.25) 

















与 RBM 的 能 量 函数 ( 式 (20.5) ) 相 比 ，DBM 能 量 函 数 以 权重 矩阵 ( 伍 22) 和 
ft) ) 的 形式 表示 隐藏 单元 ( 潜 变 量 ) 之 间 的 连接 。 正 如 我 们 将 看 到 的 ， 这 些 连接 
对 模型 行为 以 及 我 们 如 何在 模型 中 进行 推断 都 有 重要 的 影响 。 








图 20.3: 深度 玻 尔 效 曼 机 ， 重 新 排列 后 显示 为 二 分 图 结构 。 

















与 全 连接 的 玻 尔 兹 曼 机 (每 个 单元 连接 到 其 他 每 个 单元 ) 相 比 ，DBM 提供 了 类 
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似 于 RBM 的 一 些 优点 。 

具体 来 说 ， 如 图 20.3 所 示 ，DBM 的 层 可 以 组 织 成 一 个 二 分 图 ， 其 中 奇数 层 在 一 
侧 ， 偶 数 层 在 另 一 侧 。 容 易 发 现 ， 当 我 们 条 件 于 偶数 层 中 的 变量 时 ， 奇 数 层 中 的 变 
量变 得 条 件 独 立 。 当 然 ， 当 我 们 条 件 于 奇数 层 中 的 变量 时 ， 偶 数 层 中 的 变量 也 会 变 
得 条 件 独 立 。 

DBM 的 二 分 图 结构 意味 着 我 们 可 以 应 用 之 前 用 于 RBM 条 件 分 布 的 相同 式 子 
来 确定 DBM 中 的 条 件 分 布 。 在 给 定 相 邻 层 值 的 情况 下 ， 层 内 的 单元 彼此 条 件 独立 ， 
因此 二 值 变量 的 分 布 可 以 由 Bernoulli 参数 ( 描述 每 个 单元 的 激活 概率 ) 完全 摘 述 。 
在 具有 两 个 隐藏 层 的 示例 中 ， 激 活 概率 由 下 式 给 出 : 








Plu = 工 |PD) = (本 和 Po)， (20.26) 
PUD =1Twp2) =c(o 天 上 醇和 交 MA)， (20.27) 

和 
两 2 半天 人 三 喜人 (20.28) 


二 分 图 结构 使 Gibbs 采样 能 在 深度 玻 尔 兹 曼 机 中 高 效 采 样 。Gibbs 采样 的 方法 
是 一 次 只 更 新 一 个 变量 。RBM 人 允许 所 有 可 见 单元 以 一 个 块 的 方式 更 新 ， 而 所 有 隐藏 
单元 在 另 一 个 块 上 更 新 。 我 们 可 以 简单 地 假设 具有 ! 层 的 DBM 需要 1! 二 1 次 更 新 ， 
每 次 迭代 更 新 由 某 层 单元 组 成 的 块 。 然 而 ， 我 们 可 以 仅 在 两 次 欠 代 中 更 新 所 有 单元 。 
Gipbbs 采样 可 以 将 更 新 分 成 两 个 块 ， 一 块 包括 所 有 偶数 层 ( 包 括 可 见 层 ) ， 另 一 个 
包括 所 有 奇数 层 。 由 于 DBM 二 分 连接 模式 ， 给 定 偶数 层 ， 关 于 奇数 层 的 分 布 是 因 
子 的 ， 因 此 可 以 作为 块 同时 且 独 立地 采样 。 类 似 地 ， 给 定 奇数 层 ， 可 以 同时 且 独 立 
地 将 偶数 层 作 为 块 进行 采样 。 高 效 采 样 对 使 用 随机 最 大 似 然 算法 的 训练 尤其 重要 。 























20.4.1 ”有趣 的 性 质 


深度 玻 尔 效 曼 机 具有 许多 有 趣 的 性 质 。 

DBM 在 DBN 之 后 开发 。 与 DBN 相 比 ，DBM 的 后 验 分 布 P( 刀 | w) 更 简单 。 
有 点 违反 直觉 的 是 ， 这 种 后 验 分 布 的 简单 性 允许 更 加 丰富 的 后 验 近 似 。 在 DBN 的 
情况 下 ， 我 们 使 用 启发 式 的 近似 推断 过 程 进行 分 类 ， 其 中 我 们 可 以 通过 MLP (使 
用 sigmoid 激活 函数 并 且 权 重 与 原始 DBN 相同 ) 中 的 向 上 传播 猜测 隐藏 单元 合理 
的 均匀 场 期 望 值 。 任 何 分 布 Q@(P) 可 用 于 获得 对 数 似 然 的 变 分 下 界 。 因 此 这 种 启发 
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式 的 过 程 让 我 们 能 够 获得 这 样 的 下 界 。 但 是 ， 该 界 没 有 以 任何 方式 显 式 优 化 ， 所 以 
该 界 可 能 是 远 远 不 紧 的 。 特 别 地 ，@ 的 启发 式 估计 忽略 了 相同 层 内 隐藏 单元 之 间 的 
相互 作用 以 及 更 深层 中 隐藏 单元 对 更 接近 输入 的 隐藏 单元 自 顶 向 下 的 反馈 影响 。 
为 DBN 中 基于 局 发 式 MLP 的 推 新 过 程 不 能 考虑 这 些 相 互 作 用 ， 所 以 得 到 的 Q 想 
必 远 不 是 最 优 的 。DBM 中 ,在 给 定 其 他 层 的 情况 下 ， 层 内 的 所 有 隐藏 单元 都 是 条 件 
独立 的 。 这 种 层 内 相互 作用 的 缺失 使 得 通过 不 动 点 方程 优化 变 分 下 界 并 找到 真正 最 
佳 的 均匀 场 期 望 〈 在 一 些 数值 容 差 内 ) 变 得 可 能 的 。 

使 用 适当 的 均匀 场 允 许 DBM 的 近似 推 朵 过 程 捕获 自 项 向 下 反馈 相互 作用 的 影 
响 。 这 从 神经 科学 的 角度 来 看 是 有 趣 的 ， 因 为 根据 已 知 ， 人 脑 使 用 许多 自 上 而 下 的 反 
途 连 接 。 由 于 这 个 性 质 ，DBM 已 被 用 作 真 实 神经 科学 现象 的 计算 模型 (Series et ol， 
2010; Reichert et al.,， 2011)。 

DBM 一 个 不 理想 的 特性 是 从 中 采样 是 相对 困难 的 。DBN 只 需要 在 其 顶部 的 一 
对 层 中 使 用 MCMSC 采样 。 其 他 层 仅 在 采样 过 程 未 尾 涉及 , 并 且 只 需 在 一 个 高 效 的 原 
台 采 样 过 程 。 要 从 DBM 生成 样本 ， 必 须 在 所 有 层 中 使 用 MCMC ， 并 且 模 型 的 每 一 
层 都 参与 每 个 马尔 可 夫 链 转移 。 


























20.4.2 DBM 均 匀 场 推断 


给 定 相 邻 层 , 一 个 DBM 层 上 的 条 件 分 布 是 因子 的 。 在 有 两 个 隐藏 展 的 DBM 的 
示例 中 ， 这 些 分 布 是 Po | ziD0), P(PpD | ww 20) 和 PN2) | N0)。 因 为 层 之 间 的 相 
互 作用 ， 所 有 隐藏 层 上 的 分 布 通常 不 是 因子 的 。 在 有 两 个 隐藏 层 的 示例 中 , 由 于 有 2) 
和 ju2) 之 间 的 交互 权重 节 2) 使 得 这 些 变量 相互 依赖 ，P(P) | ww j2)) 不 是 因子 的 。 

与 DBN 的 情况 一 样 ， 我 们 还 是 要 找 出 近似 DBM 后 验 分 布 的 方法 。 然 而 ， 
与 DBN 不 同 ，DBM 在 其 隐藏 单元 上 的 后 验 分 布 〈 复 杂 的 ) 很 容易 用 变 分 近似 来 近 
似 (如 第 19.4 节 所 讨论 )， 有 具体 是 一 个 均匀 场 近似 。 均 匀 场 近似 是 变 分 推 呆 的 简单 形 
式 ， 其 中 我 们 将 近似 分 布 限制 为 完全 因子 的 分 布 。 在 DBM 的 情况 下 ， 均 匀 场 方程 
捕获 层 之 间 的 双向 相互 作用 。 在 本 节 中 ， 我 们 推导 出 由 Salakhutdinov and Hinton 
(2009a) 最 初 引入 的 友 代 近似 推 类 过 程 。 

在 推断 的 变 分 近似 中 ， 我 们 通过 一 些 相当 简单 的 分 布 族 近 似 特定 目标 分 布 一 一 
在 这 里 指 给 定 可 见 单元 时 隐藏 单元 的 后 验 分 布 。 在 均匀 场 近似 的 情况 下 , 近似 族 是 隐 
藏 单 元 条 件 独立 的 分 布 集合 。 
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我 们 现在 为 具有 两 个 隐藏 层 的 示例 推导 均匀 场 方法 。 令 Q(p ,Re2) | 为 
P(PD ,72 | 区 的 近似 。 均 匀 场 假设 意味 着 


900 =TIIeop ioIIeoe ly C0.29) 
了 开 


均匀 场 近似 试图 找到 这 个 分 布 族 中 最 适合 真实 后 验 P(ND) ,Nu2) | w) 的 成 员 。 重 
要 的 是 ， 每 次 我 们 使 用 v 的 新 值 时 ， 必 须 再 次 运行 推 关 过程 以 找到 不 同 的 分 布 Q。 

我 们 可 以 设想 很 多 方法 来 衡量 &( 关 | ) 与 P( 关 | 攀 的 拟 合 程度 。 均 匀 场 方法 是 
最 小 化 





KL(@1D = QOO,n2 olog( 


[到 下 20.30 
(20.30) 


忆 (PO) 六 (2) 





一 般 来 说 ， 除 了 要 保证 独立 性 假设 ， 我 们 不 必 提 供 参 数 形式 的 近似 分 布 。 变 分 
近似 过 程 通 稼 能够 恢复 近似 分 布 的 因数 形式 。 然 而 ， 在 二 值 隐 藏 单元 (我 们 在 这 里 
推导 的 情况 ) 的 均匀 场 假 设 的 情况 下 ， 不 会 由 于 预先 固定 模型 的 参数 而 损失 一 般 性 。 

我 们 将 Q 作为 Bernoulli 分 布 的 乘积 进行 参数 化 ， 即 我 们 将 AD) 每 个 元 素 的 
概率 与 一 个 参数 相关 联 。 具 体 来 说 ， 对 于 每 个 刀 pi) = QU = 工 | 可 ， 其 中 
je [0,1]。 另 外 ， 对 于 每 个 K，P2) = QU = 1 ,其 中 jg) < e [0,1]。 因 此 , 我 
们 有 以 下 近似 后 验 : 








90 由 9 生 (20.31) 
开 
-IT ))27(1 户 G) ))G- 六 x 工作 At (1 一 刻 2)G- NA ) 
开 
(20.32) 


当然 ， 对 于 具有 更 多 层 的 DBM， 近 似 后 验 的 参数 化 可 以 通过 明显 的 方式 扩展 ， 即 利 
用 图 的 二 分 结构 ， 遵 循 Gibbs 采样 相同 的 调度 ， 同 时 更 新 所 有 偶数 层 ， 然 后 同时 更 
新 所 有 奇数 层 。 

现在 我 们 已 经 指定 了 近似 分 布 Q 的 函数 族 ， 但 仍然 需要 指定 用 于 选择 该 函数 族 
中 最 适合 尸 的 成 员 的 过 程 。 最 直接 的 方法 是 使 用 式 (19.56) 指定 的 均匀 场 方程 。 这 些 
方程 是 通过 求解 变 分 下 界 导 数 为 零 的 位 置 而 导出 。 他 们 以 抽象 的 方式 描述 如 何 优化 
任意 模型 的 变 分 下 界 〈 只 需 对 @ 求 期 望 )。 
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应 用 这 些 一 般 的 方程 ， 我 们 得 到 以 下 更 新 规则 〈 再 次 忽略 偏 置 项 ): 
凡 =c( w+ FU 钨 ) (20.33) 
了 达 / 
人 (20.34) 
了 











在 该 方程 组 的 不 动 点 处 我们 具有 变 分 下 界 C(@) 的 局 部 最 大 值 。 因 此 ， 这 些 不 动 点 
更 新 方程 定义 了 和 迭代 算法 ， 其 中 我 们 交替 更 新 几 ” (使 用 式 (20.33) ) 和 有 达 ” (使 
用 式 (20.34) )。 对 于 诸如 MNIST 的 小 问题 ， 少 至 10 次 迭代 就 足以 找到 用 于 学 习 的 
近似 正 相 梯度 ， 而 50 次 通常 足以 获得 要 用 于 高 精度 分 类 的 单个 特定 样本 的 高 质量 表 
示 。 将 近似 变 分 推 电 扩 展 到 更 深 的 DBM 是 直观 的 。 














20.4.3 DBM 的 参数 学 习 


DBM 中 的 学 习 必 须 面 对 难 解 配 分 函数 的 挑战 (使 用 第 十 八 章 中 的 技术 )， 以 及 
难 解 后 验 分 布 的 挑战 使 用 第 十 九 章 中 的 技术 ) 

如 第 20.4.2 节 中 所 描述 的 ， 变 分 推断 允许 构 建 近似 难处 理 的 P(P | 可 的 分 布 
@ 人 | 本。 然后 通过 最 大 化 Clw @, 9) (难处 理 的 对 数 似 然 的 变 分 下 界 log P(w 9) ) 
学 汪 


对 于 具有 两 个 隐藏 层 的 深度 玻 尔 效 曼 机 ，C 由 下 式 给 出 


CQ,8) = 》 >》 ww 人 人 二》 》 7 有 和 一 log2Z(9) 十 江 (Q)， (20.35) 
思 

该 表达 式 仍 然 包 含 对 数 配 分 函数 log 2(6)。 由 于 深度 玻 尔 效 曼 机 包含 受 限 玻 尔 效 曼 
机 作为 组 件 ， 用 于 计算 受 限 玻 尔 效 曼 机 的 配 分 困 数 和 采样 的 困难 同样 适用 于 深度 玻 
尔 效 曼 机 。 这 意味 着 评估 玻 尔 效 受 机 的 概率 质量 机 数 需要 近似 方法 ， 如 退火 重要 采 
样 。 同 样 ， 训 练 模 型 需要 近似 对 数 配 分 表 数 的 梯度 。 见 第 十 八 章 对 这 些 方法 的 一 般 
性 描述 。DBM 通常 使 用 随机 最 大 似 然 训 练 。 第 十 八 章 中 摘 述 的 许多 其 他 技术 都 不 适 
用 。 诸 如 伪 似 然 的 技术 需要 评估 非 归 一 化 概率 的 能 力 ， 而 不 是 仅仅 获得 它们 的 变 分 
下 界 。 对 于 深度 玻 尔 效 曼 机 ， 对 比 散 度 是 缓慢 的 ， 因 为 它们 不 能 在 给 定 可 见 单元 时 
对 隐藏 单元 进行 高 效 采 样 一 反而， 每 当 需 要 新 的 负 相 样本 时 ， 对 比 散 度 将 需要 磨 
合 一 条 马尔 可 夫 链 。 

非 变 分 版 本 的 随机 最 大 似 然 算法 已 经 在 第 18.2 节 讨论 过 。 算 法 20.1 给 出 了 应 用 
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于 DBM 的 变 分 随机 最 大 似 然 算 法 。 回 想 一 下 , 我 们 描述 的 是 DBM 的 简化 变 体 〈 缺 
少 俩 置 参数 ) ; 很 容易 推广 到 包含 侦 置 参数 的 情况 。 





























20.4.4， 逐 层 预 训练 


不 幸 的 是 ,随机 初始 化 后 使 用 随机 最 大 似 然 训练 (如 上 所 述 ) 的 DBM 通常 导致 
失败 。 在 一 些 情况 下 ， 模 型 不 能 学 习 如 何 充分 地 表示 分 布 。 在 其 他 情况 下 ，DBM 可 
以 很 好 地 表示 分 布 ， 但 是 没有 比 仅 使 用 RBM 获得 更 高 的 似 然 。 除 第 一 层 之 外 ， 所 
有 层 都 具有 非常 小 权重 的 DBM 与 RBM 表示 大 致 相同 的 分 布 。 

如 第 20.4.5 节 所 述 ， 目 前 已 经 开发 了 人 允许 联合 训练 的 各 种 技术 。 然 而 ， 克 
服 DBM 的 联合 训练 问题 最 初 和 最 流行 的 方法 是 贪心 逐 层 预 训 练 。 在 该 方法 中 ， 
DBM 的 每 一 层 被 单独 视 为 RBM， 进 行 训 练 。 第 一 层 被 训练 为 对 输入 数据 进行 建 模 。 
每 个 后 续 RBM 被 训练 为 对 来 自前 一 RBM 后 验 分 布 的 样本 进行 建 模 。 在 以 这 种 方 
式 训练 了 所 有 RBM 之 后 ， 它 们 可 以 被 组 合成 DBM。 然 后 可 以 用 PCD 训练 DBM。 
通常 ，PCD 训练 将 仅 使 模型 的 参数 、 由 数据 上 的 对 数 似 然 衡 量 的 性 能 、 或 区 分 输入 
的 能 力 发 生 微小 的 变化 。 见 图 20.4 展示 的 训练 过 程 。 

这 种 贪心 逐 层 训 练 过 程 不 仅仅 是 坐标 上 升 。 因 为 我 们 在 每 个 步骤 优化 参数 的 一 
个 子 集 ， 它 与 坐标 上 升 具有 一 些 传递 相似 性 。 这 两 种 方法 是 不 同 的 ， 因 为 贪心 逐 层 
训练 过 程 中 ， 我 们 在 每 个 步 又 都 使 用 了 不 同 的 目标 本 数 。 

DBM 的 贪心 逐 层 预 训练 与 DBN 的 贪心 逐 层 预 训 练 不 同 。 每 个 单独 的 RBM 的 参 
数 可 以 直接 复制 到 相应 的 DBN。 在 DBM 的 情况 下 , RBM 的 参数 在 包含 到 DBM 中 
之 前 必须 修改 。RBM 栈 的 中 间 层 仅 使 用 自 底 向 上 的 输入 进行 训练 ， 但 在 栈 组 合 
形成 DBM 后 ， 该 层 将 同时 具有 自 底 向 上 和 自 顶 向 下 的 输入 。 为 了 解释 这 种 效应 ， 
Salakhutdinov and Hinton (2009a) 提倡 在 将 其 插入 DBM 之 前 ， 将 所 有 RBM (项 
部 和 底部 RBM 除外 ) 的 权重 除 2。 另 外 ， 必 须 使 用 每 个 可 见 单元 的 两 个 “副本 ”来 
训练 底部 RBM， 并 且 两 个 副本 之 间 的 权重 约束 为 相等 。 这 意味 着 在 向 上 传播 时 ， 权 
重 能 有 效 地 加 倍 。 类 似 地 ， 顶 部 RBM 应 当 使 用 最 顶层 的 两 个 副本 来 训练 。 

为 了 使 用 深度 玻 尔 效 曼 机 获得 最 好 结果 ,我 们 需要 修改 标准 的 SML 算法 , 即 在 联 
合 PCD 训练 步骤 的 负 相 期 间 使 用 少量 的 均匀 场 (Salakhutdinov and Hinton, 2009a)。 
具体 来 说 ， 应 当 相 对 于 其 中 所 有 单元 彼此 独立 的 均匀 场 分 布 来 计算 能 量 梯度 的 期 望 。 
这 个 均匀 场 分 布 的 参数 应 该 通过 运行 一 次 均匀 场 不 动 点 方程 获得 。Goodfellow et ol. 
(2013d) 比较 了 在 负 相 中 使 用 和 不 使 用 部 分 均匀 场 的 中 心 化 DBM 的 性 能 。 
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算法 20.1 用 于 训练 具有 两 个 隐藏 层 的 DBM 的 变 分 随机 最 大 似 然 算法 
设 步 长 e 为 一 个 小 正 数 
设 定 吉 布 其 步 数 大 到 足以 让 pf PaD ,je2);6 + eAs) 的 马尔 可 夫 链 能 磨合 (从 
来 自 plw Pa ,2;9) 的 样本 开始 )。 
人 
分 布 ， 边 缘分 布 大 致 与 模型 匹配 )。 
while 没有 收敛 (学 习 循 环 ) do 
从 训练 数据 采 包 含 mm 个 样本 的 小 批量 ， 并 将 它们 排列 为 设计 和 矩阵 的 行 。 
有 时 区 下 丰 省 呈 其 大 致 符合 模型 的 边缘 分 布 。 
wbile 没有 收敛 ( 均匀 场 推断 循环 ) do 
4- Sigmoid 0 二 站 ” 2) 
调 ” < Sigmoid ( 庄 ， ) TO) 由 


end while 











人 
Re 
for /=1tok (Gibbs 采样 ) do 
Gibbs block 1: 三 
Vi 六 访 ) 二 二 sigmoid ( 吹 (也 :) 
Vi 妃 玖 总 采 自 己 ( 志 @ = 1) = sigmoid (也 2 9) 
Gibbs is 二 分 
V2 访 瑟 万 采 自 己 (万 0 = 1) = sigmoid (元 :本 虽 十 站 TO ) 
end for 
二 
二 人 站 丈 工 下 GT 玉 
WO) 二 页 0) +eAwam (这 是 大 概 的 描述 ， 实 践 中 使 用 的 算法 更 高 效 ， 如 具有 
衰减 学 习 率 的 动量 ) 
WP) 二 有 2) +eAwa 


end while 
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图 20.4: 用 于 分 类 MNIST 数据 集 的 深度 玻 尔 效 曼 机 训练 过 程 (Salakhutdinov and Hinton, 2009ai 
Srivastava et al., 2014)。(a) 使 用 CD 近似 最 大 化 log P(w) 来 训练 RBM。(b) 训练 第 二 个 RBM, 使 
用 CD- 近似 最 大 化 log P(AD,y) 来 建 模 za) 和 目标 类 y， 其 中 AD) 采 自 第 一 个 RBM 条 件 于 数 
据 的 后 验 。 在 学 习 期 间 将 上 从 工 增 加 到 20。(c) 将 两 个 RBM 组 合 为 DBM。 使 用 大 = 5 的 随机 最 
大 似 然 训练 , 近似 最 大 化 log P(v,y)。(d) 将 y 从 模型 中 删除 。 定 义 新 的 一 组 特征 AD 和 大 2 ， 可 
在 缺少 y 的 模型 中 运行 均匀 场 推 新 后 获得 。 使 用 这 些 特 征 作 为 MLP 的 输入 ， 其 结构 与 均匀 场 的 额 
外 轮 相 同 ， 并且 具有 用 于 估计 y 的 额外 输出 层 。 初 始 化 MLP 的 权重 与 DBM 的 权重 相同 。 使 用 随机 
梯度 下 降 和 Dropout 训 练 MLP 近 似 最 大 化 log P(y | v)。 图 来 自 Goodfellow et al. (2013d) 。 























































































































20.4.5 “联合 训练 深度 玻 尔 兹 曼 机 


经 典 DBM 需要 贪心 无 监督 预 训练 ， 并 且 为 了 更 好 的 分 类 ， 需 要 在 它们 提取 
的 隐藏 特征 之 上 ， 使 用 独立 的 基于 MLP 的 分 类 器 。 这 种 方法 有 一 些 不 理想 的 性 
质 。 因 为 我 们 不 能 在 训练 第 一 个 RBM 时 评估 完整 DBM 的 属性 ， 所 以 在 训练 期 间 
难以 跟踪 性 能 。 因 此 ， 直 到 相当 晚 的 训练 过 程 ， 我 们 都 很 难 知道 我 们 的 超 参数 表 
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现 如 何 。DBM 的 软件 实现 需要 很 多 不 同 的 模块 ， 如 用 于 单个 RBM 的 CD 训练 、 
完整 DBM 的 PCD 训练 以 及 基于 反 向 传播 的 MLP 训练 。 最 后 ， 玻 尔 兹 曼 机 顶部 
的 MLP 失去 了 玻 尔 兹 曼 机 概率 模型 的 许多 优点 ， 例 如 当 某 些 输 入 值 丢 失 时 仍 能 够 
进行 推断 的 优点 。 

主要 有 两 种 方法 可 以 处 理 深度 玻 尔 效 曼 机 的 联合 训练 问题 。 第 一 个 是 中 心 化 深 
度 玻 尔 效 曼 机 (centered deep Boltzmann machine) (Montavon and Muller, 2012), 通 
过 重 参 数 化 模型 使 其 在 开始 学 习 过 程 时 代价 函数 的 Hessian 具有 更 好 的 条 件数 。 这 
个 模型 不 用 经 过 贪心 逐 层 预 训练 阶段 就 能 训练 。 这 个 模型 在 测试 集 上 获得 出 色 的 
对 数 似 然 ， 并 能 产生 高 质量 的 样本 。 不 幸 的 是 ， 作 为 分 类 器 ， 它 仍然 不 能 与 适当 正 
则 化 的 MLP 竞争 。 联 合 训练 深度 玻 尔 效 曼 机 的 第 二 种 方式 是 使 用 多 预测 深度 玻 尔 
北 曼 机 (multi-prediction deep Boltzmann machine, MP-DBM ) (Goodfellow et al.， 
2013d)。 该 模型 的 训练 准则 允许 反 向 传播 算法 ， 以 避免 使 用 MCMC 估计 梯度 的 问 
题 。 不 幸 的 是 ,新 的 准则 不 会 导致 良好 的 似 然 性 或 样本 ， 但 是 相 比 MCMSC 方法 ， 它 
确实 会 导致 更 好 的 分 类 性 能 和 良好 的 推断 缺失 输入 的 能 

如 果 我 们 回 到 玻 尔 效 曼 机 的 一 般 观点 ， 即 包括 一 组 权重 和 矩 阵 Z 和 偏 置 的 单元 
zZ， 玻 尔 效 曼 机 中 心 化 技巧 是 最 容易 描述 的 。 回 顾 式 (20.2) ， 能 量 函 数 由 下 式 给 出 























已 (oz 一-zTUz 一 bc (20.36) 


在 权重 和 矩阵 Z 中 使 用 不 同 的 稀 玻 模式 ， 我 们 可 以 实现 不 同 架 构 的 玻 尔 效 曼 机 ， 
如 RBM 或 具有 不 同 层 数 的 DBM。 将 z 分 割 成 可 见 和 隐藏 单元 并 将 U 中 不 相互 作 
用 的 单元 的 归 零 可 以 实现 这 些 架构 。 中 心 化 玻 尔 效 曼 机 引入 了 一 个 向 量 凡 ， 并 从 所 
有 状态 中 减 去 : 





盏 (mi 世人 =-(z 一 J 辣 IUfz 一 站 一 (zz 一 7 (20.37) 


通常 A 在 开始 训练 时 固定 为 一 个 超 参 数 。 当 模型 初始 化 时 ， 通 党 选择 为 一 由 s 0。 
这 种 重 参数 化 不 改变 模型 可 表示 的 概率 分 布 的 集合 ， 但 它 确实 改变 了 应 用 于 似 然 
的 随机 梯度 下 降 的 动态 。 有 具体 来 说 ， 在 许多 情况 下 ， 这 种 重 参数 化 导致 更 好 条 件数 
的 Hessian 和 矩 阵 。Melchior et ol. (2013) 通过 实验 证 实 了 Hessian 和 抑 阵 条 件数 的 改 
善 ,并 观察 到 中 心 化 技巧 等 价 于 另 一 个 玻 尔 效 曼 机 学 习 技术 一 一 增强 梯度 (enhanced 
gradient) (Cho et ol., 2011)。 即 使 在 困难 的 情况 下 ， 例 如 训练 多 层 的 深度 玻 尔 效 受 
机 ，Hessian 矩阵 条 件数 的 改善 也 能 使 学 习 成 功 。 


联合 训练 深度 玻 尔 兹 曼 机 的 另 一 种 方法 是 多 预测 次 度 玻 尔 效 曼 机 ( MP-DBM )， 
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它 将 均匀 场 方程 视 为 定义 一 系列 用 于 近似 求解 每 个 可 能 推断 问题 的 循环 网 络 (Good- 
fellow et w，2013d)。 模 型 被 训练 为 使 每 个 循环 网 络 获得 对 相应 推 朵 问题 的 准确 答 
案 ， 而 不 是 训练 模型 来 最 大 化 似 然 。 训 练 过 程 如 图 20.5 所 示 。 它 包括 随机 采 一 个 训 
练 样本 、 随 机 采样 推断 网 络 的 输入 子 集 ， 然 后 训练 推断 网 络 来 预测 剩余 单元 的 值 。 

这 种 用 于 近似 推断 ， 通 过 计算 图 进行 反 向 传播 的 一 般 原 理 已 经 应 用 于 其 他 模 
型 (Stoyanov et al., 2011; Brakel et al., 2013)。 在 这 些 模 型 和 MP-DBM 中 ， 最 终 损 
失 不 是 似 然 的 下 界 。 相 反 ， 最 终 损 失 通 常 基于 近似 推断 网 络 对 缺失 值 施加 的 近似 条 
件 分 布 。 这 意味 着 这 些 模 型 的 训练 有 些 启发 式 。 如 果 我 们 检查 由 MP-DBM 学 习 出 来 
的 玻 尔 效 曼 机 表示 p( ,在 Gibbs 采样 产生 较 差 样本 的 意义 下 ， 它 倾向 于 有 些 缺 陷 。 

通过 推 肠 图 的 反 向 传播 有 两 个 主要 优点 。 首 先 ， 它 以 模型 真正 使 用 的 方式 训练 
模型 一 一 使 用 近似 推断 。 这 意味 着 在 MP-DBM 中 ， 进 行 如 填充 缺失 的 输入 或 执行 
分 类 (尽管 存在 缺失 的 输入 ) 的 近似 推断 比 在 原始 DBM 中 更 准确 。 原 始 DBM 不 
会 自己 做 出 准确 的 分 类 器 ; 使 用 原始 DBM 的 最 佳 分 类 结果 是 基于 DBM 提取 的 特 
征 训 练 独立 的 分 类 器 ， 而 不 是 通过 使 用 DBM 中 的 推断 来 计算 关于 类 标签 的 分 布 。 
MP-DBM 中 的 均匀 场 推断 作为 分 类 器 ， 不 需要 进行 特殊 修改 就 获得 良好 的 表现 。 通 
过 近似 推断 反 向 传播 的 另 一 个 优点 是 反 向 传播 计算 损失 的 精确 梯度 。 对 于 优化 而 言 ， 
比 SML 训练 中 具有 偏差 和 方差 的 近似 梯度 更 好 。 这 可 能 解释 了 为 什么 MP-DBM 可 
以 联合 训练 ， 而 DBM 需要 贪心 逐 层 预 训练 。 近 似 推断 图 反 向 传播 的 缺点 是 它 不 提 
供 一 种 优化 对 数 似 然 的 方法 ， 而 提供 广义 伪 似 然 的 启发 式 近 似 。 

MP-DBM 启发 了 对 NADE 框架 的 扩展 NADE-K (Raiko et al., 2014) ， 我 们 将 
在 第 20.10.10 节 中 描述 。 


MP-DBM 与 Dropout 有 一 定 联系 。Dropont 在 许多 不 同 的 计算 图 之 间 共 享 相 
同 的 参数 ， 每 个 图 之 间 的 差异 是 包括 还 是 排除 每 个 单元 。MP-DBM 还 在 许多 计算 
图 之 间 共 享 参 数 。 在 MP-DBM 的 情况 下 ， 图 之 间 的 差异 是 每 个 输入 单元 是 否 被 观 
察 到 。 当 没有 观察 到 单元 时 ，MP-DBM 不 会 像 Droponut 那样 将 其 完全 删除 。 相 反 ，， 
MP-DBM 将 其 视 为 要 推断 的 潜 变 量 。 我 们 可 以 想象 将 Droponut 应 用 到 MP-DBML， 
即 额外 去 除 一 些 单元 而 不 是 将 它们 变 为 潜 变量 。 
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图 20.5: 深度 玻 尔 效 曼 机 多 预测 训练 过 程 的 示意 图 。 每 一 行 指示 相同 训练 步 又 内 小 批量 中 的 不 同 
样本 。 每 列表 示 均 匀 场 推 其 过程 中 的 时 间 步 。 对 于 每 个 样本 ,我 们 对 数据 变量 的 子 集 进 行 采样 ， 作 
为 推断 过 程 的 输入 。 这 些 变量 以 黑色 阴影 表示 条 件 。 然 后 我 们 运行 均匀 场 推断 过 程 ， 箭 头 指示 过 
程 中 的 哪些 变量 会 影响 其 他 变量 。 在 实际 应 用 中 ， 我 们 将 均匀 场 展 开 为 几 个 步 又 。 在 此 示意 图 中 ， 
我 们 只 展开 为 两 个 步 又 。 虚 线 箭头 表示 获得 更 多 步 又 需要 如 何 展开 该 过 程 。 未 用 作 推 斯 过 程 输 入 
的 数据 变量 成 为 目标 ， 以 灰色 阴影 表示 。 我 们 可 以 将 每 个 样本 的 推断 过 程 视 为 循环 网 络 。 为 了 使 
其 在 给 定 输 入 后 能 产生 正确 的 目标 ， 我 们 使 用 梯度 下 降 和 反 向 传播 训练 这 些 循 环 网 络 。 这 可 以 训 
练 MP-DBM 均匀 场 过 程 产 生 准 确 的 估计 。 图 改编 自 Goodfellow et ol. (2013d)。 
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20.5 ” 实 值 数据 上 的 玻 尔 兹 曼 机 


虽然 玻 尔 兹 曼 机 最 初 是 为 二 值 数 据 而 开发 的 ， 但 是 许多 应 用 ， 例 如 图 像 和 音频 
建 模 似 乎 需要 表示 实 值 上 概率 分 布 的 能 力 。 在 一 些 情况 下 ， 我 们 可 以 将 区 间 [0,1] 中 
的 实 值 数 据 视 为 表示 二 值 变量 的 期 望 。 例 如 ，Hinton (2000) 将 训练 集中 灰 度 图 像 的 
像素 值 视 为 定义 [0,1] 间 的 概率 值 。 每 个 像素 定义 二 值 变量 为 1 的 概率 ,并 且 二 值 像 
素 的 采样 都 彼此 独立 。 这 是 评 佑 灰 度 图 像 数 据 集 上 二 值 模型 的 常见 过 程 。 然 而 ， 这 
种 方法 理论 上 并 不 特别 令 人 满意 ， 并 且 以 这 种 方式 独立 采样 的 二 值 图 像 具 有 噪声 表 
象 。 在 本 节 中 ， 我 们 介绍 概率 密度 定义 在 实 值 数据 上 的 玻 尔 效 曼 机 。 











20.5.1 Gaussian-Bernoulli RBM 





受 限 玻 尔 效 曼 机 可 以 用 于 许多 指数 族 的 条 件 分 布 (Welling et ol., 2005)。 其 中 ， 
最 常见 的 是 具有 二 值 隐 藏 单元 和 实 值 可 见 单元 的 RBM， 其 中 可 见 单元 上 的 条 件 分 布 
是 高 斯 分 布 〈 均 值 为 隐藏 单元 的 函数 ) 

有 很 多 方法 可 以 参数 化 Gaussian-Bernoulli RBM。 首 先 ， 我 们 可 以 选择 协 方差 
矩阵 或 精度 矩阵 来 参数 化 高 斯 分 布 。 这 里 ， 我 们 介绍 选择 精度 矩阵 的 情况 。 我 们 可 
以 通过 简单 的 修改 获得 协 方差 的 形式 。 我 们 希望 条 件 分 布 为 


plo| 站 = No IPB- (20.38) 








通过 扩展 未 归 一 化 的 对 数 条 件 分 布 可 以 找到 需要 添加 到 能 量 栅 数 中 的 项 : 


襄 友 他 和 和 全 让 三 -5(o- Wire W 站 上 +HB) (20.39) 





此 处 矿 封 装 所 有 的 参数 ， 但 不 包括 模型 中 的 随机 变量 。 因 为 广 的 唯一 作用 是 归 
一 化 分 布 ， 并 且 我 们 选择 的 任何 可 作为 配 分 数 的 能 量 机 数 都 能 起 到 这 个 作用 ， 所 
以 我 们 可 以 忽略 太 

如 果 我 们 在 能 量 函 数 中 包含 式 (20.39) 中 涉及 v 的 所 有 项 ( 其 符号 被 翻转 )， 并 
且 不 添加 任何 其 他 涉及 vw 的 项 ， 那 么 我 们 的 能 量 函 数 就 能 表示 想 要 的 条 件 分 布 
pu| 各 。 

其 他 条 件 分 布 比较 自由 ， 如 p( 疡 | JJ)。 注 意 式 (20.39) 包含 一 项 











1 
本 7 全 0 TV (20.40) 
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因为 该 项 包含 态 j 项 ， 它 不 能 被 全 部 包括 在 内 。 这 些 对 应 于 隐藏 单元 之 间 的 边 。 如 
果 我 们 包括 这 些 项， 我 们 将 得 到 一 个 线性 因子 模型 ， 而 不 是 受 限 玻 尔 效 曼 机 。 当 设 
计 我 们 的 玻 尔 效 曼 机 时 ， 我 们 简单 地 省 略 这 些 访 六 交叉 项 。 省 略 这 些 项 不 改变 条 件 
分 布 p(v | 站,， 因 此 式 (20.39) 仍 满 足 。 然 而 ,我 们 仍然 可 以 选择 是 否 包 括 仅 涉 及 单个 
请 的 项 。 如 果 我 们 假设 精度 矩阵 是 对 角 的 ， 就 能 发 现 对 于 每 个 隐藏 单元 疡 ， 我 们 有 
一 项 








工 
交 


在 上 面 ， 我 们 使 用 了 邮 = 访 的 事实 〈 因为 /ua e {0,1} )。 如 果 我 们 在 能 量 机 数 中 包 
含 此 项 〈 符号 被 翻转 )， 则 当 该 单元 的 权重 较 大 且 以 高 精度 连接 到 可 见 单元 时 ， 偏 
置 访 将 自然 被 关闭 。 是 否 包括 该 偏 置 项 不 影响 模型 可 以 表示 的 分 布 族 〈 假设 我 们 包 
括 隐藏 单元 的 偏 置 参数 )， 但 是 它 确 实 会 影响 模型 的 学 习 动 态 。 包 括 该 项 可 以 帮助 隐 
藏 单元 (即使 权重 在 幅度 上 快速 增加 时 ) 保持 合理 激活 。 

因此 ,在 Gaussian-Bernoulli RBM 上 定义 能 量 函 数 的 一 种 方式 : 











Bo 月 =5or(gog-(ooBTT -bo (20.42) 


但 我 们 还 可 以 添加 额外 的 项 或 者 通过 方差 而 不 是 精度 参数 化 能 量 。 

在 这 个 推导 中 ,我 们 没有 在 可 见 单元 上 添加 偏 置 项 ， 但 添加 这 样 的 偏 置 是 容易 
的 。Gaussian-Bernoulli RBM 参数 化 一 个 最 终 变化 的 来 源 是 如 何 处 理 精度 抢 阵 的 选 
择 。 它 可 以 被 固定 为 常数 ( 可 能 基于 数据 的 边缘 精度 估计 ) 或 学 习 出 来 。 它 也 可 以 
是 标量 乘 以 单位 矩阵 ， 或 者 是 一 个 对 角 和 矩阵 。 在 此 情况 下 ， 由 于 一 些 操作 需要 对 和 矩 
阵 求 逆 , 我 们 通常 不 允许 非 对 角 的 精度 和 矩阵， 因为 高 斯 分 布 的 一 些 操作 需要 对 和 抑 阵 求 
逆 , 一 个 对 角 移 阵 可 以 非常 容易 地 被 求 逆 。 在 接 下 来 的 章节 中 , 我 们 将 看 到 其 他 形式 
的 玻 尔 效 曼 机 ， 它 们 允许 对 协 方差 结构 建 模 ， 并 使 用 各 种 技术 避免 对 精度 和 阵 求 逆 。 



































20.5.2 “条件 协 方差 的 无 向 模型 


虽然 高 斯 RBM 已 成 为 实 值 数据 的 标准 能 量 模型 , Ranzato et ol/. (2010a) 认为 高 
斯 RBM 感应 偏 置 不 能 很 好 地 适合 某 些 类 型 的 实 值 数据 中 存在 的 统计 变化 ， 特 别 是 
自然 图 像 。 问 题 在 于 自然 图 像 中 的 许多 信息 内 容 和 能 入 于 像素 之 间 的 协 方差 而 不 是 
原始 像素 值 中 。 换 名 话说， 图 像 中 的 大 多 数 有 用 信息 在 于 像素 之 间 的 关系 ， 而 不 是 
其 绝对 值 。 由 于 高 斯 RBM 仅 对 给 定 隐 藏 单元 的 输入 条 件 均 值 建 模 ， 所 以 它 不 能 捕 
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获 条 件 协 方差 信息 。 为 了 回应 这 些 评论 ， 已 经 有 学 者 提出 了 替代 模型 ， 设 法 更 好 地 
考虑 实 值 数据 的 协 方差 。 这 些 模型 包括 均值 和 协 方差 RBM (mean and covariance 
RBM, mcRBM ) 1!1、 学 生 + 上 分 布 均值 乘积 (mean product of Student t-distribution， 
ImPoT ) 模型 和 尖峰 和 平板 RBM ( spike and slab RBM, ssRBM )。 


均值 和 协 方差 RBM mcRBM 使 用 隐藏 单元 独立 地 编码 所 有 可 观察 单元 的 条 件 均 
值 和 协 方差 。mcRBM 的 隐藏 层 分 为 两 组 单元 : 均值 单元 和 协 方差 单元 。 建 模 条 件 
均值 的 那 组 单元 是 简单 的 高 斯 RBM。 另 一 半 是 协 方差 RBM (covariance RBM 
cRBM ) (Ranzato et al., 2010a) ， 对 条 件 协 方差 的 结构 进行 建 模 (如 下 所 述 )。 

具体 来 说 , 在 二 值 均值 的 单元 凡 "” 和 二 值 协 方差 单元 愉 2 的 情况 下 , mcRBM 模 
型 被 定义 为 两 个 能 量 函 数 的 组 合 : 


万 (zi Pi) 一 局 (zz Nm)) 十 瓦 (zz 79)， (20.43) 





让 中 已 。 为 标准 的 Gaussian-Bernoulli RBM 能 量 琐 数 2， 


NHl 























mm (m) (mp (om) 
忆 n(z, jh) 一 人 全 -用 二 帮 (20.44) 
本 7 
及 是 cRBM 建 模 条 件 协 方差 信息 的 能 量 柚 数 : 
及 (mm 719) = 5 0 (20.45) 
了 了 
参数 r0) 与 it) 关联 的 协 方差 权重 向 量 对 应 ， 以 2 是 一 个 协 方差 偏 置 向 量 。 组 合 后 
的 能 量 函 数 定义 联合 分 布 ， 


1 
pne(m 有 MO) = 元 exp { 一 再。(z Rom 0 (20.46) 


以 及 给 定 赋 ”)” 和 je 后 ， 关 于 观察 数据 相应 的 条 件 分 布 〈 为 一 个 多 元 高 斯 分 布 ): 
太 全 | 大) -ve 人 开 wa) 中 (20.47) 
小 


注意 协 方差 矩阵 C 吕 = (NOrDrO7 + 太 。 是 非 对 角 的 ， 且 酌 是 与 建 模 条 件 
均值 的 高 斯 RBM 相关 联 的 权重 矩阵 。 由 于 非 对 角 的 条 件 协 方差 结构 ， 难 以 通过 对 


1 术语 “mcRBM” 根 据 字 母 M-C-R-B-M 发 音 ;“mc” 不 是 “McDonald's” 中 的 “Mec” 的 发 音 。 
“这 个 版 本 的 Gaussian-Bernoulli RBM 能 量 函 数 假定 图 像 数 据 的 每 个 像素 具有 有 云 均值。 考虑 非 零 像 素 均值 时 ， 可 
以 简单 地 将 像素 偏 移 添加 到 模型 中 。 
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比 散 度 或 持续 性 对 比 散 度 来 训练 mceRBM。CD 和 PCD 需要 从 zj) ,9 的 联合 
分 布 中 采样 ， 这 在 标准 RBM 中 可 以 通过 Gibbs 采样 在 条 件 分 布 上 采样 实现 。 但 是 ， 
在 mceRBM 中 ， 从 pme(z | 1 ,No9) 中 抽样 需要 在 学 习 的 每 个 迭代 计算 (Cme)-1。 
这 对 于 更 大 的 观察 数据 可 能 是 不 切实 际 的 计算 负担 。Ranzato and Hinton (2010) 通 
过 使 用 mcRBM 自由 能 上 的 哈密 尔 顿 ( 混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 从 边缘 
p(z) 采样 ， 避 免 了 直接 从 条 件 pme(z | ko, No) 抽样。 








学 生 + 分 布 均值 乘积 ”学生 上 分 布 均值 乘积 (mPoT ) 模型 (Ranzato et o/.，2010b) 
以 类 似 mcRBM 扩展 cRBM 的 方式 扩展 PoT 模型 (Welling et al., 2003aj。 通 过 添 
加 类 做 高 斯 RBM 中 隐藏 单元 的 非 零 高 斯 均值 来 实现 。 与 mcRBM 一 样 ， 观 察 值 上 
的 PoT 条 件 分 布 是 多 元 高 斯 ( 具有 非 对 角 的 协 方差 ) 分 布 ; 然而 ,不 同 于 mcRBM ， 
隐藏 变量 的 互补 条 件 分 布 是 由 条 件 独立 的 Gamma 分 布 给 出 。Gamama 分 布 9(K,O) 
是 关于 正 实 数 且 均值 为 56 的 概率 分 布 。 我 们 只 需 简单 地 了 解 Gamma 分 布 就 足以 理 
解 mmPoT 模型 的 基本 思想 。 
mPoT 的 能 量 函 数 为 : 
局 apor(z, PP 人 9) (20.48) 


。 1 
= 忆 n(mND) 二 >》， ( 忆 )(1 十 人 人 内 人 (20.49) 
了 





其 中 rG) 是 与 单元 几 9 相关 联 的 协 方差 权重 向 量 ， 吾 。(z, 凡 m) 如 式 (20.44) 所 定义 。 
正如 mcRBM 一 样 ，mPoT 模型 能 量 函 数 指定 一 个 多 元 高 斯 分 布 ， 其 中 关于 z 
的 条 件 分 布 具有 非 对 角 的 协 方差 。mPoT 模型 中 的 学 习 (也 像 mecRBM ) 由 于 无 法 
从 非 对 角 高 斯 条 件 分 布 papor(z | 及 m),A9) 采样 而 变 得 复杂 。 因 此 Ranzato et ol 
(2010b) 也 倡导 通过 哈密 尔 顿 〈 混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 采样 pz(z)。 








尖峰 和 平板 RBM ”尖峰 和 平板 RBM (spike and slab RBM, ssRBM ) (Courville 
et al.，2011b) 提供 对 实 值 数 据 的 协 方差 结构 建 模 的 另 一 种 方法 。 与 mcRBM 相 
比 ，ssRBM 具有 既 不 需要 和 阵 求 逆 也 不 需要 哈密 尔 顿 蒙特 卡 罗 方 法 的 优点 。 就 
像 meRBM 和 mPoT 模型 ，ssRBM 的 二 值 隐藏 单元 通过 使 用 辅助 实 值 变量 来 编码 
跨 像 素 的 条 件 协 方差 。 

尖峰 和 平板 RBM 有 两 类 隐藏 单元 : 二 值 尖峰 (spike) 单元 hp 和 实 值 平 板 (slab) 
单元 s。 条 件 于 隐藏 单元 的 可 见 单元 均值 由 (@ s) 你 ” 给 出 。 换 名 话说, 每 一 列 剑 ' 
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定义 当 应 = 工时 可 出 现在 输入 中 的 分 量 。 相 应 的 尖峰 变量 h; 确定 该 分 量 是 否 存在 。 
如 果 存 在 的 话 ， 相 应 的 平板 变量 s; 确定 该 分 量 的 强度 。 当 尖峰 变量 激活 时 ， 相 应 的 
平板 变量 将 沿 着 例 :,; 定义 的 轴 的 输入 增加 方差 。 这 允许 我 们 对 输入 的 协 方差 建 模 。 
平和 运 的 是 ， 使 用 Gibbs 采样 的 对 比 散 度 和 持续 性 对 比 散 度 仍 然 适 用 。 此 处 无 需 对 任 
何 和 矩阵 求 逆 。 

形式 上 ，ssRBM 模型 通过 其 能 量 函 数 定义 : 








其 中 访 是 尖峰 访 的 偏 置 ，A 是 观测 值 zx 上 的 对 角 精 度 窍 阵 。 参 数 a > 0 是 实 值 平 
板 变 量 si 的 标量 精度 参数 。 参 数 理 ; 是 定义 z 上 的 疡 调制 二 次 惩罚 的 非 负 对 角 拢 
阵 。 每 个 u 是 平板 变量 si 的 均值 参数 。 

利用 能 量 数 定义 的 联合 分 布 ， 能 相对 容易 地 导出 sRBM 条 件 分 布 。 例 如 , 通 
过 边缘 化 平板 变量 s， 给 定 二 值 尖峰 变量 刀 ， 关 于 观察 量 的 条 件 分 布 由 下 式 给 出 


1 
Re 时 机 国 
及。(z,s 站 = 一 站 Z 本 5si 二 52 ( 十 汪 so Z (20.50) 














下 于 
pe(z| 朋 = 厅 也 |/ ER (20.59) 
一 wz C 呈 >》 卫 ji ci (20.53) 





其 中 C 史 = (A 人 十 ; 玉 一 ; oj 1 旋 栈 、 丽 .)!。 最 后 的 等 式 只 有 在 协 方差 矩阵 
史 正定 时 成 立 。 

由 尖峰 变量 选 通 意 味 着 h os 上 的 真实 边缘 分 布 是 稀 玻 的 。 这 不 同 于 稀 玻 编码 ， 
其 中 来 自 模 型 的 样本 在 编码 中 “几乎 从 不 ”( 在 测度 理论 意义 上 ) 包含 零 ， 并 且 需 
要 MAP 推 断 来 强加 稀 玻 性 。 

相 比 mecRBM 和 mPoT 模型 ，ssRBM 以 明显 不 同 的 方式 参数 化 观察 量 的 条 件 
协 方差 。mcRBM 和 mPoT 都 通过 ( 导 ; 必 2rGrOOT 十 帮 ” 建 模 观察 量 的 协 方差 
结构 ， 使 用 访 > 0 的 隐藏 单元 的 激活 来 对 方向 "2) 的 条 件 协 方差 施加 约束 。 相 反 ，， 
ssSRBM 使 用 隐藏 尖峰 激活 访 = 1 来 指定 观察 结果 的 条 件 协 方差 ， 以 沿 着 由 相应 权 
重 向量 指 定 的 方向 捏合 精度 矩阵 。ssRBM 条 件 协 方差 与 一 个 不 同 模型 给 出 的 类 似 ; 
概率 主 成 分 分 析 的 乘积 (PoPPCA ) (Wiliams and Agakov, 2002)。 在 过 完备 的 设 定 
下 ，ssRBM 参数 化 的 稀 玻 激活 仅 人 允许 在 稀 玻 激活 必 的 所 选 方向 上 有 显著 方差 (高 
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于 由 A- 给 出 的 近似 方差 )。 在 mecRBM 或 mPoT 模型 中 ， 过 完备 的 表示 意味 着 ， 
捕获 观察 空间 中 特定 方向 上 的 变化 需要 在 该 方向 上 的 正 交 投影 下 去 除 潜 在 的 所 有 约 
束 。 这 表明 这 些 模型 不 太 适 合 于 过 完备 设 定 。 

尖峰 和 平板 RBM 的 主要 缺点 是 参数 的 一 些 设置 会 对 应 于 非 正 定 的 协 方差 矩阵 。 
这 种 协 方差 矩阵 会 在 离 均值 更 远 的 值 上 放置 更 大 的 未 归 一 化 概率 ， 导 致 所 有 可 能 结 
果 上 的 积分 发 散 。 通 党 这 个 问题 可 以 通过 简单 的 启发 式 技巧 来 避免 。 理 论 上 还 没有 
任何 令 人 满意 的 解决 方法 。 使 用 约束 优化 来 显 式 地 避免 概率 未 定义 的 区 域 〈 不 过 分 
保守 是 很 难 做 到 的 )， 并 且 这 还 会 阻止 模型 到 达 参 数 空 间 的 高 性 能 区 域 。 

定性 地 ，ssRBM 的 卷 积 变 体能 产生 自然 图 像 的 优秀 样本 。 图 16.1 中 展示 了 一 些 
样 例 。 

ssSRBM 人 允许 几 个 扩展 ,包括 平板 变量 的 高 阶 交 互 和 平均 池 化 (Courville et ol， 
2014) 使 得 模型 能 够 在 标注 数据 稀缺 时 为 分 类 器 学 习 到 出 色 的 特征 。 向 能 量 画 
数 添加 一 项 能 防止 配 分 函数 在 稀 玻 编码 模型 下 变 得 不 确定 ， 如 尖峰 和 平板 稀 玻 编 
但 (Goodfellow et ol/., 2013g)， 也 称 为 S3C。 
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如 第 九 章 所 示 ， 超 高 维度 输入 〈 如 图像 ) 会 对 机 器 学 习 模 型 的 计算 、 内 存 和 统 
计 要 求 造成 很 大 的 压力 。 通 过 使 用 小 核 的 离散 卷 积 来 蔡 换 矩阵 乘法 是 解决 具有 空间 
平移 不 变性 或 时 间 结 构 的 输入 问题 的 标准 方式 。Desjardins and Bengio (2008) 表明 
这 种 方法 应 用 于 RBM 时 效果 很 好 。 

深度 卷 积 网 络 通常 需要 池 化 操作 ， 使 得 每 个 连续 层 的 空间 大 小 减 小 。 前 馈 卷 积 
网 络 通常 使 用 池 化 函数 ， 例 如 池 化 元 素 的 最 大 值 。 目 前 尚 不 清楚 如 何 将 其 推广 到 基 
于 能 量 的 模型 的 设 定 中 。 我 们 可 以 在 ”个 二 值 检测 器 单元 d_ 上 引入 二 值 池 化 单元 p， 
强制 p = maxi di ， 并 且 当 违反 约束 时 将 能 量 函 数 设 置 为 co。 因 为 它 需 要 评估 2 个 
不 同 的 能 量 设 置 来 计算 归 一 化 常数 ， 这 种 方式 不 能 很 好 地 扩展 。 对 于 小 的 3 x 3 池 化 
区 域 ， 每 个 池 化 单元 需要 评估 2 = 512 个 能 量 函 数 ! 

Lee et al. (2009) 针对 这 个 问题 ， 开 发 了 一 个 称 为 概率 最 大 池 化 (probabilistic 
max pooling) 的 解决 方案 (不 要 与 “随机 池 化 ”混淆 ,“ 随 机 池 化 ”是 用 于 隐 含 地 构 
建 卷 积 前 馈 网 络 集成 的 技术 )。 概 率 最 大 池 化 背后 的 策略 是 约束 检测 器 单元 ， 使 得 一 
次 最 多 只 有 一 个 可 以 处 于 活动 状态 。 这 意味 着 仅 存 在 见 十 1 个 总 状态 〈m 个 检测 吉 
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单元 中 某 一 个 状态 为 开 和 一 个 对 应 于 所 有 检测 器 单元 关闭 的 附加 状态 )。 当 且 仅 当 检 
测 需 单 元 中 的 一 个 开启 时 ， 池 化 单元 打开 。 所 有 单元 的 状态 关闭 时 ， 能 量 被 分 配 为 
零 。 我 们 可 以 认为 这 是 在 用 包含 m + 1 个 状态 的 单个 变量 来 描述 模型 ， 或 者 等 价 地 
具有 郊 十 1 个 变量 的 模型 ， 除 了 郊 十 工 个 联合 分 配 的 变量 之 外 的 能 量 赋 为 co。 

虽然 高 效 的 概率 最 大 池 化 确实 能 强迫 检测 需 单 元 互 斥 ， 这 在 某 些 情 景 下 可 能 是 
有 用 的 正则 化 约束 而 在 其 他 情景 下 是 对 模型 容量 有 害 的 限制 。 它 也 不 支持 重 友 池 化 
区 域 。 从 前 馈 卷 积 网 络 获得 最 佳 性 能 通常 需要 重 礁 的 池 化 区 域 ， 因 此 这 种 约束 可 能 
大 大 降低 了 卷 积 玻 尔 效 曼 机 的 性 能 。 

Lee et ol. (2009) 证 明 概 率 最 大 池 化 可 以 用 于 构建 卷 积 深 度 玻 尔 兹 曼 机 ?3。 该 模 
型 能 够 执行 诸如 填补 输入 缺失 部 分 的 操作 。 虽 然 这 种 模型 在 理论 上 有 吸引 力 ， 让 它 
在 实践 中 工作 是 具有 挑战 性 的 ， 作 为 分 类 器 通常 不 如 通过 监督 训练 的 传统 卷 积 网 络 。 

许多 卷 积 模型 对 于 许多 不 同 空间 大 小 的 输入 同样 有 效 。 对 于 玻 尔 效 曼 机 ， 由 于 
各 种 原因 很 难 改变 输入 尺寸 。 配 分 函数 随 着 输入 大 小 的 改变 而 改变 。 此 外 , 许多 卷 积 
网 络 按 与 输入 大 小 成 比例 地 缩放 池 化 区 域 来 实现 尺寸 不 变性 ， 但 缩放 玻 尔 效 曼 机 池 
化 区 域 是 不 优雅 的 。 传 统 的 卷 积 神经 网 络 可 以 使 用 固定 数量 的 池 化 单元 并 且 动 态 地 
增加 它们 池 化 区 域 的 大 小 ， 以 此 获得 可 变 大 小 输入 的 固定 尺寸 的 表示 。 对 于 玻 尔 效 
曼 机 ， 大 型 池 化 区 域 的 计算 成 本 比 朴素 方法 高 很 多 。Lee et ol/. (2009) 的 方法 使 得 每 
个 检测 器 单元 在 相同 的 池 化 区 域 中 互 斥 ， 解 决 了 计算 问题 ， 但 仍然 不 允许 大 小 可 变 
的 池 化 区 域 。 例 如 ， 假 设 我 们 在 学 习 边 缘 检 测 器 时 ,检测 需 单 元 上 具有 2 x 2 的 概率 
最 大 池 化 。 这 强制 约束 在 每 个 2 x 2 的 区 域 中 只 能 出 现 这 些 边 中 的 一 条 。 如 果 我 们 随 
后 在 每 个 方向 上 将 输入 图 像 的 大 小 增加 50%， 则 期 望 边缘 的 数量 会 相应 地 增加 。 相 
反 ， 如 果 我 们 在 每 个 方向 上 将 池 化 区 域 的 大 小 增加 50 宛 到 3 x 3， 则 互 斥 性 约束 现 
在 指定 这 些 边 中 的 每 一 个 在 3 x 3 区 域 中 仅 可 以 出 现 一 次 。 当 我 们 以 这 种 方式 增长 模 
型 的 输入 图 像 时 ， 模 型 会 生成 密度 较 小 的 边 。 当 然 ， 这 些 问题 只 有 在 模型 必须 使 用 
可 变数 量 的 池 化 ， 以 便 产 出 固定 大 小 的 输出 向 量 时 才 会 出 现 。 只 要 模型 的 输出 是 可 
以 与 输入 图 像 成 比例 缩放 的 特征 图 ， 使 用 概率 最 大 池 化 的 模型 仍然 可 以 接受 可 变 大 
小 的 输入 图 像 。 

图 像 边界 处 的 像素 也 带 来 一 些 困 难 ， 由 于 玻 尔 效 曼 机 中 的 连接 是 对 称 的 事实 而 
加 剧 。 如 果 我 们 不 隐 式 地 补 零 输 入 ， 则 将 会 导致 比 可 见 单元 更 少 的 隐藏 单元 ， 并 且 
图 像 边 界 处 的 可 见 单元 将 不 能 被 良好 地 建 模 ， 因 为 它们 位 于 较 少 隐藏 单元 的 接受 场 


?该 论文 将 模型 描述 为 “深度 信念 网 络 ”， 但 因为 它 可 以 被 描述 为 纯 无 向 模型 ( 具有 易 处 理 逐 层 均匀 场 不 动 点 更 新 )， 
所 以 它 最 适合 深度 玻 尔 兹 曼 机 的 定义 。 
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中 。 然 而 ， 如 果 我 们 隐 式 地 补 零 输入 ， 则 边界 处 的 隐藏 单元 将 由 较 少 的 输入 像素 驱 
动 ， 并 且 可 能 在 需要 时 无 法 激活 。 
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在 结构 化 输出 场景 中 ， 我 们 希望 训练 可 以 从 一 些 输入 z 映射 到 一 些 输出 y 的 模 
型 ，Y 的 不 同 条 目 彼 此 相关 ， 并 且 必 须 遵 守 一 些 约束 。 例 如 ， 在 语音 合成 任务 中 ，VY 
是 波形 ， 并 且 整 个 波形 听 起 来 必须 像 连贯 的 发 音 。 

表示 y 中 的 条 目 之 间 关 系 的 自然 方式 是 使 用 概率 分 布 p(y | 由。 扩展 到 建 模 条 
件 分 布 的 玻 尔 效 曼 机 可 以 支持 这 种 概率 模型 。 

使 用 玻 尔 兹 曼 机 条 件 建 模 的 相同 工具 不 仅 可 以 用 于 结构 化 输出 任务 ， 还 可 以 用 
于 序列 建 模 。 在 后 一 种 情况 下 , 模型 必须 佑 计 变 量 序列 上 的 概率 分 布 p(x0),. ,xD))， 
而 不 仅仅 是 将 输入 z 映射 到 输出 y。 为 完成 这 个 任务 ， 条 件 玻 尔 效 曼 机 可 以 表示 
D(xtr) | x). ,xu) 形式 的 因子 。 

视频 游戏 和 电影 工业 中 一 个 重要 序列 建 模 任务 是 建 模 用 于 泻 染 3-D 人 物 骨 架 关 
节 角 度 的 序列 。 这 些 序列 通常 通过 记录 角色 移动 的 运动 捕获 系统 收集 。 人 物 运动 的 概 
率 模 型 允许 生成 新 的 (之 前 没 见 过 的 ) 但 真实 的 动画 。 为 了 解决 这 个 序列 建 模 任务 ， 
Taylor et al. (2007) 针对 小 的 mm 引入 了 条 件 RBM 建 模 p(zG | zt ,zt )。 
该 模型 是 p(zi9) 上 的 RBM， 其 偏 置 参数 是 z 前 面 m 个 值 的 线性 函数 。 当 我 们 条 件 
于 zt-D9) 的 不 同 值 和 更 早 的 变量 时 ， 我 们 会 得 到 一 个 关于 x 的 新 RBM。RBM 关于 
x 的 权重 不 会 改变 , 但 是 条 件 于 不 同 的 过 去 值 , 我 们 可 以 改变 RBM 中 的 不 同 隐藏 单 
元 处 于 活动 状态 的 概率 。 通 过 激活 和 去 激活 隐藏 单元 的 不 同 子 集 ， 我 们 可 以 对 x 上 
诱导 的 概率 分 布 进行 大 的 改变 。 条 件 RBM 的 其 他 变 体 (Mnih et 咏 , 2011) 和 使 用 
条 件 RBM 进行 序列 建 模 的 其 他 变 体 是 可 能 的 (Taylor and Hinton,，2009; Sutskever 
et al.，2009; Boulanger-Lewandowski et al.,， 2012)。 

另 一 个 序列 建 模 任 务 是 对 构成 歌曲 音符 序列 的 分 布 进行 建 模 。Boulanger- 
Lewandowski et al. (2012) 引入 了 RNN-RBM 序列 模型 并 应 用 于 这 个 任务 。RNN- 
RBM 由 RNN (产生 用 于 每 个 时 间 步 的 RBM 参数 ) 组 成 ， 是 帧 序列 zx) 的 生成 模 
型 。 与 之 前 只 有 RBM 的 偏 置 参数 会 在 一 个 时 间 步 到 下 一 个 发 生变 化 的 方法 不 同 ， 
RNN-RBM 使 用 RNN 来 产生 RBM 的 所 有 参数 ( 包括 权重 )。 为 了 训练 模型 ， 我 们 
需要 能 够 通过 RNN 反 向 传播 损失 函数 的 梯度 。 损 失 函数 不 直接 应 用 于 RNN 输出 。 
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相反 ， 它 应 用 于 RBM。 这 意味 着 我 们 必须 使 用 对 比 散 度 或 相关 算法 关于 RBM 参数 


进行 近似 的 微分 。 然 后 才 可 以 使 用 通常 的 通过 时 间 反 上 向 传播 算法 通过 RNN 反 向 传 
播 该 近似 梯度 。 


20.8 ”其 他 玻 尔 效 曼 机 





玻 尔 效 曼 机 的 许多 其 他 变种 是 可 能 的 。 

玻 尔 效 曼 机 可 以 用 不 同 的 训练 准则 扩展 。 我 们 专注 于 训练 为 大 臻 最 大 化 生成 标 
准 logp(o) 的 玻 尔 效 曼 机 。 相 反 ， 旨 在 最 大 化 logp(y | 切 来 训练 判别 的 RBM 也 是 
有 可 能 的 (Larochelle and Bengio, 2008a)。 当 使 用 生成 性 和 判别 性 标准 的 线性 组 合 
时 ， 该 方法 通常 表现 最 好 。 不 幸 的 是 ， 至 少 使 用 现 有 的 方法 来 看 ，RBM 似乎 并 不 
如 MLP 那样 的 监督 学 习 器 强大 。 

在 实践 中 使 用 的 大 多 数 玻 尔 效 曼 机 在 其 能 量 函 数 中 仅 具 有 二 阶 相互 作用 ， 意 味 
着 它们 的 能 量 函 数 是 许多 项 的 和 ， 并 且 每 个 单独 项 仅 包 括 两 个 随机 变量 之 间 的 乘积 。 
这 种 项 的 一 个 例子 是 wTT; js。 我 们 还 可 以 训练 高 阶 玻 尔 兹 曼 机 (Sejnowski，1987) 
， 其 中 能 量 函 数 项 涉及 许多 变量 的 乘积 。 隐 藏 单 元 和 两 个 不 同 图 像 之 间 的 三 向 交互 
可 以 建 模 从 一 个 视频 帧 到 下 一 个 帧 的 空间 变换 (Memisevic and Hinton, 2007, 2010)。 
通过 one-hot 类 别 变量 的 乘法 可 以 根据 存在 哪个 类 来 改变 可 见 单元 和 隐藏 单元 之 间 的 
关系 (Nair and Hinton, 2009)。 使 用 高 阶 交互 的 一 个 最 近 的 示例 是 具有 两 组 隐藏 单 
元 的 玻 尔 效 曼 机 ， 一 组 同时 与 可 见 单元 v 和 类 别 标 签 y 交互 ， 另 一 组 仅 与 输入 值 v 
交互 (Luo et al., 2011)。 这 可 以 被 解释 为 鼓励 一 些 隐藏 单元 学 习 使 用 与 类 相关 的 特 
征 来 建 模 输入 ， 而 且 还 学 习 额 外 的 隐藏 单元 (不 需要 根据 样本 类 别 ， 学 习 通 真 v 样 
本 所 需 的 繁琐 细节 )。 高 阶 交 互 的 另 一 个 用 途 是 选 通 一 些 特征 。Sohn et ol!. (2013) 介 
绍 了 一 个 带 有 三 阶 交互 的 玻 尔 兹 曼 机 ， 以 及 与 每 个 可 见 单元 相关 的 二 进 制 掩 码 变 量 。 
当 这 些 掩 码 变量 设置 为 零 时 ， 它 们 消除 可 见 单元 对 隐藏 单元 的 影响 。 这 人 允许 将 与 分 
类 问题 不 相关 的 可 见 单元 从 估计 类 别 的 推断 路 径 中 移 除 。 

更 一 般 地 说 ， 玻 尔 兹 曼 机 框架 是 一 个 丰富 的 模型 空间 ， 人 允许 比 迄 今 为 止 已 经 探 
索 的 更 多 的 模型 结构 。 开 发 新 形式 的 玻 尔 兹 曼 机 相 比 于 开发 新 的 神经 网 络 层 需要 更 
多 细心 和 创造 力 ， 因 为 它 通 常 很 难 找到 一 个 能 保持 玻 尔 效 曼 机 所 需 的 所 有 不 同 条 件 
分 布 的 可 解 性 的 能 量 函 数 。 尽 管 这 需要 努力 ， 该 领域 仍 对 创新 开放 。 
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20.9 ”通过 随机 操作 的 反 向 传播 


传统 的 神经 网 络 对 一 些 输 入 变量 z 施加 确定 性 变换 。 当 开发 生成 模型 时 ， 我 们 
经 党 希望 扩展 神经 网 络 以 实现 z 的 随机 变换 。 这 样 做 的 一 个 直接 方法 是 使 用 额外 输 
入 z( 从 一 些 简单 的 概率 分 布 采样 得 到 ， 如 均匀 或 高 斯 分 布 ) 来 增强 神经 网 络 。 神 经 
网 络 在 内 部 仍 可 以 继续 执行 确定 性 计算 ， 但 是 本 数 /z, 2) 对 于 不 能 访问 z 的 观察 
来 说 将 是 随机 的 。 假 设 也 是 连续 可 微 的 ， 我 们 可 以 像 往常 一 样 使 用 反 向 传播 计算 训 
练 所 需 的 梯度 。 

作为 示例 ， 让 我 们 考虑 从 均值 4 和 方差 o? 的 高 斯 分 布 中 采样 y 的 操作 : 














y 下 AN(N ao2)， (20.54) 





因为 y 的 单个 样本 不 是 由 函数 产生 的 ， 而 是 由 一 个 采样 过 程 产生 ， 它 的 输出 会 随 我 
们 的 每 次 查询 变化 ， 所 以 取 y 相对 于 其 分 布 的 参数 六 和 c? 的 导数 似乎 是 违反 直觉 
的 。 然 而 ， 我 们 可 以 将 采样 过 程 重 写 ， 对 基本 随机 变量 z ~ NM(z; 0,1) 进行 转换 以 从 
期 望 的 分 布 获 得 样本 : 








4 一 从 十 az. (20.55) 








现在 我 们 将 其 视 为 具有 额外 输入 z 的 确定 性 操作 ， 可 以 通过 采样 操作 来 反 向 传 
播 。 至 关 重 要 的 是 ， 额 外 输入 是 一 个 随机 变量 ， 其 分 布 不 是 任何 我 们 想 对 其 计算 导 
数 的 变量 的 函数 。 如 果 我 们 可 以 用 相同 的 z 值 再 次 重复 采样 操作 ， 结 果 会 告诉 我 们 
1/ 或 c 的 微小 变化 将 会 如 何 改变 输出 。 

能 够 通过 该 采样 操作 反 向 传播 允许 我 们 将 其 并 和 人 更 大 的 图 中 。 我 们 可 以 在 采样 
分 布 的 输出 之 上 构建 图 元 素 。 例 如 ， 我 们 可 以 计算 一 些 损失 天 数 .J(y) 的 导数 。 我 们 
还 可 以 构建 这 样 的 图 元 素 ， 其 输出 是 采样 操作 的 输入 或 参数 。 例 如 ， 我 们 可 以 通过 
/= flz9) 和 =g9g(zig9) 构建 更 大 的 图 。 在 这 个 增强 图 中 ,我们 可 以 通过 这 些 函 数 
的 反 向 传播 导出 Ve.J(y)。 

在 该 高 斯 采样 示例 中 使 用 的 原理 能 更 广泛 地 应 用 。 我 们 可 以 将 任何 形 为 p(y; 9) 
或 pz(y|w9) 的 概率 分 布 表 示 为 p(y | w)， 其 中 w 是 同时 包含 参数 0 和 输入 z 的 变 
量 (如 果 适 用 的 话 )。 给 定 从 分 布 p(y | w) 采样 的 值 y (其 中 w 可 以 是 其 他 变量 的 函 
数 )， 我 们 可 以 将 























y~py1|w) (20.56) 
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重 写 为 


2 二 帮 攻 oh) (20.57) 





其 中 z 是 随机 性 的 来 源 。 只 要 /是 几乎 处 处 连续 可 微 的 ， 我 们 就 可 以 使 用 传统 
工具 (例如 应 用 于 /7 的 反 向 传播 算法 ) 计算 y 相对 于 w 的 导数 。 至 关 重 要 的 是 ， 
w 不 能 是 z 的 函数 ， 且 z 不 能 是 w 的 困 数 。 这 种 技术 通常 被 称 为 重 参数 化 技巧 
(reparametrization trick )、 随 机 反 向 传播 (stochastic back-propagation) 或 扰动 分 析 
(Perturbation analysis)。 

要 求 是 连续 可 微 的 ， 当 然 需要 y 是 连续 的 。 如 果 我 们 和 希望 通过 产生 离散 值 
样本 的 采样 过 程 进行 反 向 传播 ， 则 可 以 使 用 强化 学 习 算法 (如 REINFORCE 算法 
(Williams, 1992) 的 变 体 ) 来 估计 w 上 的 梯度 ， 这 将 在 第 20.9.1 节 中 讨论 。 

在 神经 网 络 应 用 中 , 我 们 通常 选择 从 一 些 简 单 的 分 布 中 采样 z， 如 单位 均匀 分 布 
或 单位 高 斯 分 布 ， 并 通过 网 络 的 确定 性 部 分 重 塑 其 输入 来 实现 更 复杂 的 分 布 。 

通过 随机 操作 扩展 梯度 或 优化 的 想法 可 追溯 到 二 十 世纪 中 叶 (Price，1958; 
Bonnet，1964)， 并 且 首 先 在 强化 学 习 (Williams，1992) 的 情景 下 用 于 机 器 学 习 。 
最 近 ， 它 已 被 应 用 于 变 分 近似 (Opper and Archambeau, 2009) 和 随机 生成 神经 网 
络 (Bengio et ol., 2013b; Kingma, 2013; Kingma and Welling, 2014b,a; Rezende et al.,， 
2014; Goodfellow et al., 2014c)。 许 多 网 络 ， 如 去 噪 自 编码 器 或 使 用 Droponut 的 正则 
化 网 络 ， 也 被 自然 地 设计 为 将 噪声 作为 输入 ， 而 不 需要 任何 特殊 的 重 参数 化 就 能 使 
噪声 独立 于 模型 。 




















20.9.1 ”通过 离散 随机 操作 的 反 向 传播 


当 模型 发 射 离散 变量 y 时 ， 重 参数 化 技巧 不 再 适用 。 假 设 模型 采用 输入 z 和 参 
数 09， 两 者 都 封装 在 向 量 w 中 ,并 且 将 它们 与 随机 噪声 z 组 合 以 产生 y: 





2 三 帮 z). (20.58) 


因为 y 是 离散 的 ，j 必须 是 一 个 阶 跃 上 数 。 阶 牙 函 数 的 导数 在 任何 点 都 是 没 用 的 。 
在 每 个 阶 跃 边界 ， 导 数 是 未 定义 的 ， 但 这 是 一 个 小 问题 。 大 问题 是 导数 在 阶 跃 边界 
之 间 的 区 域 几 乎 处 处 为 零 。 因 此 ， 任 何 代价 函数 7(g) 的 导数 无 法 给 出 如 何 更 新 模型 
参数 9 的 任何 信息 。 








20.9 通过 随机 操作 的 反 向 传播 589 


REINFORCE 算法 (REward Increment = nonnegative Factor x Offset Rein- 
Re x Characteristic Eligibility ) 提供 了 定义 一 系列 简单 而 强大 解决 方案 的 框 
架 (Williams, 1992)。 其 核心 思想 是 ， 即 使 7(F(zsw)) 是 具有 无 用 导数 的 阶 跃 机 数 ， 
期 望 代价 EpoaJ(F(sw)) 通常 是 服从 梯度 下 降 的 光滑 函数 。 虽 然 当 y 是 高 维 (或 
者 是 许多 离散 随机 决策 组 合 的 结果 ) 时 ， 该 期 望 通常 是 难 解 的 ， 但 我 们 可 以 使 用 蒙 
特 卡 罗平 均 进 行 无 偏 估计 。 梯 度 的 随机 估计 可 以 与 SGD 或 其 他 基于 随机 梯度 的 优化 
技术 一 起 使 用 。 
通过 简单 地 微分 期 望 成 本 ， 我 们 可 以 推导 出 REINFORCE 最 简单 的 版 本 : 
























































= > 7J(Wz(J， (20.59) 
OF Op(y) 
和 >， 由 (20.60) 
加 logp( 切 
= 2 TOP( 切 一 有 (20.61) 
二 SS 0 (20.62) 
VDwPD(y) 这 


式 (20.60) 依赖 于 . 不 直接 引用 w 放松 这 个 假设 来 扩展 该 方法 是 简单 的 。 
式 (20.61) 利用 对 数 的 导数 规则 ，22 吕 多 = 霹 中风 。 式 (20.62) 给 出 了 该 梯度 的 无 
偏 蒙 特 卡 罗 估 计 。 

在 本 节 中 我 们 写 的 P( 急 ， 可 以 等 价 地 写成 p(y | 四 。 这 是 因为 pP(y) 由 w 参数 化 ， 
并 且 如 果 z 存在，w 包含 0 和 z 两 者 。 

简单 REINFORCE 估计 的 一 个 问题 是 其 具有 非常 高 的 方差 ， 需 要 采 y 的 许多 
样本 才能 获得 对 梯度 的 良好 估计 ， 或 者 等 价 地 ， 如 果 仅 绘制 一 个 样本 ，SGD 将 收 
敛 得 非常 缓慢 并 将 需要 较 小 的 学 习 率 。 通 过 使 用 方差 减 小 (variance reduction ) 方 
法 (Wilson, 1984; LEcuyer, 1994)， 可 以 地 减少 该 估计 的 方差 。 想 法 是 修改 估计 量 ， 
其 预期 值 保 持 不 变 ， 但 方差 减 小 。 在 REINFORCE 的 情况 下 提出 的 方差 减 小 方 
法 ,涉及 计算 用 于 偏 移 .J(W) 的 基线 (baseline)。 注 意 ,不 依赖 于 y 的 任何 偏 移 Wu) 
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都 不 会 改变 估计 梯度 的 期 望 ， 因 为 























书 d 2 -于 pg2S 亿 (20.63) 
二 (20.64) 
一 疙 2 王 区 1 届 (20.65) 
意味 着 
已 全 |C(GJ -Mo)) 区 村 | = 羽 四 | 7 | 一) 可 二 
(20.66) 
二 ro2| (20.67) 





此 外 ,我们 可 以 通过 计算 (J(g) - 8(w))22g2g 关于 p(g) 的 方差 , 并 关于 W(w) 最 小 
化 获得 最 优 Wew)。 我 们 发 现 这 个 最 佳 基线 *(w); 对 于 向 量 w 的 每 个 元 素 w, 是 不 同 
的 : 

















olo 2 
已 o[7G2es 人 | 








太 (wh)i 三 20.68 
0 
相对 于 w; 的 梯度 估计 则 变 为 
O1 
(7 全 一 oa)2 提 (20.69) 





其 中 We); 估计 上 述 扩 (w);。 获得 估计 ! 通常 需要 将 额外 输出 添加 到 神经 网 络 ， 并 训 
练 新 输出 对 w 的 每 个 元 素 估 计 已 pg[7 (7 ) 2 ] 和 瑟 5 吃 [2 人 切 ” ]。 这 些 额 外 的 输 
4 本 以 用 的 大 有 标 并。 于 给 定 的 wo, 从 采样 了 时 ,分别 用 JE 
和 ?gz 作 目 标 。 然 后 可 以 将 这 些 估计 代入 式 (20.68) 就 能 恢复 估计 部 Mnibh and 
Gregmr (2014) 倾向 于 使 用 通过 目标 J(g) 训练 的 单个 共享 输出 〈 跨 越 w 的 所 有 元 素 
i )， 并 使 用 Ww) 瑟 bp 作为 基线 。 


在 强化 学 习 背 景 下 引入 的 方差 减 小 方法 (Sutton et al.,，2000; Weaver and Tao， 
2001)，Dayan (1990) 推广 了 二 值 奖励 的 前 期 工作 。 可 以 参考 Bengio et ol!. (2013b)、 
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Mnih and Gregor (2014)、Ba et ol (2014) 、Mnih et ol. (2014) 或 Xu et al. (2015) 中 
在 深度 学 习 的 背景 下 使 用 减少 方差 的 REINFORCE 算法 的 现代 例子 。 除 了 使 用 与 输 
人 相关 的 基线 Wew)j, Mnih and Gregor (2014) 发 现 可 以 在 训练 期 间 调 整 (J(W 一 ww)) 
的 尺度 〈 即 除 以 训练 期 间 的 移动 平均 估计 的 标准 差 )， 即 作为 一 种 适应 性 学 习 率 ， 可 
以 抵消 训练 过 程 中 该 量 大 小 发 生 的 重要 变化 的 影响 。Mnih and Gregor (2014) 称 之 
为 启发 式 方差 归 一 化 (variance normalization)。 

基于 REINFORCE 的 估计 器 可 以 被 理解 为 将 y 的 选择 与 J(9) 的 对 应 值 相关 联 
来 估计 梯度 。 如 果 在 当前 参数 化 下 不 太 可 能 出 现 y 的 良好 值 ， 则 可 能 需要 很 长 时 间 
来 偶然 获得 它 ， 并 且 获 得 所 需 信 号 的 配置 应 当 被 加 强 。 











20.10 有 向 生成 网 络 


如 第 十 六 章 所 讨论 的 , 有 向 图 模型 构成 了 一 类 突出 的 图 模型 。 虽 然 有 向 图 模型 在 
更 大 的 机 顺 学 习 社 群 中 非常 流行 ， 但 在 较 小 的 深度 学 习 社 群 中 ， 大 约 直 到 2013 年 它 
们 都 掩盖 在 无 向 模型 (如 RBM ) 的 光彩 之 下 。 

在 本 节 中 ， 我 们 回顾 一 些 传 统 上 与 深度 学 习 社 群 相关 的 标准 有 向 图 模型 。 

我 们 已 经 描述 过 部 分 有 向 的 模型 一 一 深度 信念 网 络 。 我 们 还 朱 述 过 可 以 被 认为 
是 浅 度 有 回 生 成 模型 的 稀 玻 编码 模型 。 尽 管 在 样本 生成 和 密度 估计 方面 表现 不 佳 ， 
在 深度 学 习 的 背景 下 它们 通常 被 用 作 特 征 学 习 需 。 我 们 接 下 来 描述 多 种 深度 完全 有 
向 的 模型 。 











20.10.1 sigmoid 信念 网 络 


sigmoid 信念 网 络 (Neal, 1990) 是 一 种 具有 特定 条 件 概率 分 布 的 有 向 图 模型 的 简 
单 形式 。 一 般 来 说 ,我 们 可 以 将 sigmoid 信念 网 络 视 为 具有 二 值 向 量 的 状态 s， 其 中 
状态 的 每 个 元 素 都 受 其 祖先 影响 : 


2(si) = "人 ( 开 me 十 中 (20.70) 


J<17 








sigmoid 信念 网 络 最 常见 的 结构 是 被 分 为 许多 层 的 结构 ， 其 中 原始 采样 通过 一 系 
列 多 个 隐藏 层 进行 ， 然 后 最 终生 成 可 见 层 。 这 种 结构 与 深度 信念 网 络 非常 相似 ， 但 
它们 在 采样 过 程 开始 时 的 单元 彼此 独立 ， 而 不 是 从 受 限 玻 尔 兹 曼 机 采样 。 这 种 结构 
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由 于 各 种 原因 而 令 人 感 兴趣 。 一 个 原因 是 该 结构 是 可 见 单元 上 概率 分 布 的 通用 近似 ， 
即 在 足够 深 的 情况 下 ， 可 以 任意 良好 地 近似 二 值 变 量 的 任何 概率 分 布 〈 即 使 各 个 层 
的 宽度 受 限 于 可 见 层 的 维度 ) (Sutskever and Hinton,， 2008)。 

虽然 生成 可 见 单元 的 样本 在 sigmoid 信念 网 络 中 是 非常 高 效 的， 但 是 其 他 大 多 
数 操作 不 是 很 高 效 。 给 定 可 见 单元 ， 对 隐藏 单元 的 推断 是 难 解 的 。 因 为 变 分 下 界 涉 
及 对 包含 整个 层 的 团 求 期 望 ， 均 匀 场 推 关 也 是 难以 处 理 的 。 这 个 问题 一 直 困 难 到 足 
以 限制 有 向 离散 网 络 的 普及 。 

在 sigmoid 信念 网 络 中 执行 推断 的 一 种 方法 是 构造 专用 于 sigmoid 信念 网 络 的 
不 同 下 界 (Saul et al., 1996)。 这 种 方法 只 适用 于 非常 小 的 网 络 。 另 一 种 方法 是 使 用 学 
成 推断 机 制 ， 如 第 19.5 节 中 描述 的 。Helmholtz 机 (Dayan et a/.，1995; Dayan and 
Hinton, 1996) 结合 了 一 个 sigmoid 信念 网 络 与 一 个 预测 隐藏 单元 上 均匀 场 分 布 参数 
的 推导 网 络 。sigmoid 信念 网 络 的 现代 方法 (Gregor et ol.,， 2014; Mnih and Gregor， 
2014) 仍然 使 用 这 种 推 疡 网 络 的 方法 。 因 为 潜 变 量 的 离散 本 质 ， 这 些 技术 仍然 是 困 
难 的 。 人 们 不 能 简单 地 通过 推断 网 络 的 输出 反 向 传播 ， 而 必须 使 用 相对 不 可 靠 的 机 
制 即 通过 离散 采样 过 程 进 行 反 向 传播 (如 第 20.9.1 节 所 述 )。 最 近 基 于 重要 采样 、 重 
加 权 的 醒 眠 (Bornschein and Bengio, 2015) 或 双向 Helmholtz 机 (Bornschein et al.， 
2015) 的 方法 使 得 我 们 可 以 快速 训练 sigmoid 信念 网 络 ， 并 在 基准 任务 上 达到 最 好 的 
表现 。 

sigmoid 信念 网 络 的 一 种 特殊 情况 是 没有 潜 变 量 的 情况 。 在 这 种 情况 下 学 习 是 高 
效 的， 因为 没有 必要 将 潜 变 量 边 缘 化 到 似 然 之 外 。 一 系列 称 为 自 回归 网 络 的 模型 将 
这 个 完全 可 见 的 信念 网 络 泛 化 到 其 他 类 型 的 变量 ( 除 二 值 变 量 ) 和 其 他 结构 〈 除 对 
数 线性 关系 ) 的 条 件 分 布 。 自 回归 网 络 将 在 第 20.10.7 节 中 摘 述 。 









































20.10.2 ”可 微 生 成 器 网 络 


许多 生成 模型 基于 使 用 可 微 生成 器 网 络 ( generator network ) 的 想法 。 这 种 模 
型 使 用 可 微 函 数 9(z 9(42)) 将 潜 变 量 z 的 样本 变换 为 样本 x 或 样本 x 上 的 分 布 ， 可 
微 函 数 通 常 可 以 由 神经 网 络 表 示 。 这 类 模型 包括 将 生成 器 网 络 与 推 新 网 络 配对 的 变 
分 自 编码 器 、 将 生成 器 网 络 与 判别 器 网 络 配对 的 生成 式 对 抗 网 络 , 以 及 孤立 地 训练 生 
成 器 网 络 的 技术 。 

生成 器 网 络 本 质 上 仅 是 用 于 生成 样本 的 参数 化 计算 过 程 ， 其 中 的 体系 结构 提供 
了 从 中 采样 的 可 能 分 布 族 以 及 选择 这 些 族 内 分 布 的 参数 。 
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作为 示例 ,从 具有 均值 上 和 协 方差 允 的 正 态 分 布 绘制 样本 的 标准 过 程 是 将 来 自 
零 均 值 和 单位 协 方差 的 正 态 分 布 的 样本 z 馈送 到 非常 简单 的 生成 器 网 络 中 。 这 个 生 
成 器 网 络 只 包含 一 个 仿 射 层 : 





和 开 一 9g( 坟 一 凡 十 卫 轧 (20.71) 
其 中 五 由 习 的 Cholesky 分 解 给 出 。 

伪 随 机 数 发 生 器 也 可 以 使 用 简单 分 布 的 非 线性 变换 。 例 如 ， 逆 变换 采样 (inverse 
transform sampling)(Devroye, 2013) 从 V(0,1) 中 采 一 个 标量 >， 并 且 对 标量 z 应 用 
非 线性 变换 。 在 这 种 情况 下 ，9(z) 由 累积 分 布 函 数 F(z) = 三 _p(o)au 的 反 函 数 给 
出 。 如 果 我 们 能 够 指定 p(z)， 在 z 上 积分 ， 并 取 所 得 函数 的 反 函 数 ， 我 们 不 用 通过 
机 器 学 习 就 能 从 pz(z) 进行 采样 。 

为 了 从 更 复杂 的 分 布 〈 难 以 直接 指定 、 难 以 积分 或 难以 求 所 得 积分 的 反 椰 数 ) 
中 生成 样本 ， 我 们 使 用 前 馈 网 络 来 表示 非 线性 函数 9 的 参数 族 ， 并 使 用 训练 数据 
来 推断 参数 以 选择 所 期 望 的 函数 。 

我 们 可 以 认为 9 提供 了 变量 的 非 线性 变化 ,将 z 上 的 分 布 变换 成 x 上 想 要 的 分 
布 。 

回顾 式 (3.47) ， 对 于 可 求 反 函 数 的 、 可 微 的 、 连 续 的 9， 

















六 全 一 六 (gdet( 吧 | (20.79) 
这 隐 含 地 对 x 施加 概率 分 布 : 
_ Pr) 
Dz(z) 二 deto| (20.73) 








当然 ， 取 决 于 9 的 选择 ， 这 个 公式 可 能 难以 评 佑 ， 因 此 我 们 经 常 需要 使 用 间接 学 习 
9 的 方法 ， 而 不 是 直接 答 试 最 大 化 log p(z)。 


在 某 些 情况 下 ， 我 们 使 用 9 来 定义 z 上 的 条 件 分 布 ， 而 不 是 使 用 9 直接 提供 z 
的 样本 。 例 如 ,我 们 可 以 使 用 一 个 生成 器 网 络 ， 其 最 后 一 层 由 sigmoid 输出 组 成 ， 可 
以 提供 Bernoulli 分 布 的 平均 参数 : 


D(xi 王 1| 轨 三 9( zi (20.74) 
在 这 种 情况 下 ,我 们 使 用 9 来 定义 p(z | z) 时 ， 我 们 通过 边缘 化 z 来 对 z 施加 分 布 : 


plz) = PE.p(z| 二 (20.75) 
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两 种 方法 都 定义 了 一 个 分 布 pg(z)j， 并 允许 我 们 使 用 第 20.9 节 中 的 重 参数 化 技 
巧 来 训练 py 的 各 种 评估 准则 。 

表示 生成 器 网 络 的 两 种 不 同方 法 (发 出 条 件 分 布 的 参数 相对 直接 发 射 样品 ) 具 
有 互补 的 优 缺 点 。 当 生成 器 网 络 在 上 定义 条 件 分 布 时 ， 它 不 但 能 生成 连续 数据 ， 
也 能 生成 离散 数据 。 当 生成 器 网 络 直接 提供 采样 时 ， 它 只 能 产生 连续 的 数据 (我们 
可 以 在 前 向 传播 中 引入 离散 化 ， 但 这 样 做 意味 着 模型 不 再 能 够 使 用 反 向 传播 进行 训 
练 )。 直 接 采 样 的 优点 是 ， 我 们 不 再 被 迫使 用 条 件 分 布 〈 可 以 容易 地 写 出 来 并 由 人 类 
设计 者 进行 代数 操作 的 形式 ) 

基于 可 微 生 成 器 网 络 的 方法 是 由 分 类 可 微 前 乌 网 络 中 梯度 下 降 的 成 功 应 用 而 推 
动 的 。 在 监督 学 习 的 背景 中 ， 基 于 梯度 训练 学 习 的 深度 前 馈 网 络 在 给 定 足 够 的 隐藏 
单元 和 足够 的 训练 数据 的 情况 下 ， 在 实践 中 似乎 能 保证 成 功 。 这 个 同样 的 方案 能 成 
功 转移 到 生成 式 建 模 上 吗 ? 

生成 式 建 模 似 乎 比分 类 或 回归 更 困难 ， 因 为 学 习 过 程 需要 优化 难以 处 理 的 准则 。 
在 可 微 生 成 器 网 络 的 情况 中 ， 准 则 是 难以 处 理 的 ， 因 为 数据 不 指定 生成 器 网 络 的 输 
和 人 >z 和 输出 z。 在 监督 学 习 的 情况 下 ， 输 入 z 和 输出 y 同时 给 出 ， 并 且 优化 过 程 只 
需 学 习 如 何 产生 指定 的 映射 。 在 生成 建 模 的 情况 下 ， 学 习 过 程 需 要 确定 如 何以 有 用 
的 方式 排 布 > 空间 ， 以 及 额外 的 如 何 从 z 映射 到 z。 

Dosovitskiy et al. (2015) 研究 了 一 个 简化 问题 ， 其 中 > 和 z 之 间 的 对 应 关系 已 
经 给 出 。 具 体 来 说 ， 训 练 数据 是 计算 机 泻 染 的 椅子 图 。 潜 变量 z 是 泻 染 引擎 的 参数 ， 
描述 了 椅子 模型 的 选择 、 椅 子 的 位 置 以 及 影响 图 像 泻 染 的 其 他 配置 细节 。 使 用 这 种 
合成 的 生成 数据 ， 卷 积 网 络 能 够 学 习 将 图 像 内 容 的 描述 z 映射 到 深 染 图 像 的 近似 r。 
这 表明 当 现 代 可 微 生 成 器 网 络 具有 足够 的 模型 容量 时 ， 足 以 成 为 良好 的 生成 模型 ， 
并 且 现 代 优化 算法 具有 拟 合 它们 的 能 力 。 困 难 在 于 当 每 个 z 的 z 的 值 不 是 固定 的 且 
在 每 次 训练 前 是 未 知 时 ， 如 何 训练 生成 器 网 络 。 

在 接 下 来 的 章节 中 ,我 们 讨论 仅 给 出 z 的 训练 样本 ， 训 练 可 微 生 成 器 网 络 的 几 
种 方法 。 





























20.10.3 ” 变 分 自 编码 器 


变 分 自 编 码 器 ( variational auto-encoder, VAE ) (Kingma, 2013; Rezende et a1.， 
2014) 是 一 个 使 用 学 好 的 近似 推 新 的 有 向 模型 ,可 以 纯粹 地 使 用 基于 梯度 的 方法 进行 
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训练。 
为 了 从 模型 生成 样本 ，VAE 首先 从 编码 分 布 pasa( 中 采样 z。 然后 使 样本 通 
过 可 微 生 成 器 网 络 g( 习 。 最 后 ， 从 分 布 pmoast(z; g( 习 ) = pmoda(z | 习 中 采样 z。 然 
而 在 训练 期 间 ， 近 似 推断 网 络 (或 编码 器 ) gd(z| zj 用 于 获得 而 pasaa(z | 坟 则 
被 视 为 解码 器 网 络 。 
变 分 自 编码 器 背后 的 关键 思想 是 ， 它 们 可 以 通过 最 大 化 与 数据 点 = 相关 联 的 变 
分 下 界 C(d) 来 训练 




















CC(9) 二 (sm log pmodel(2 2) 戏 (9(z | 2)) (20.76) 
二 gal 可 log pmoadel(Z | 忆 一 Drr(d(z 2) || Dmodel(Z)) (20.77) 
慨 log pmodel(Z). (20.78) 


在 式 (20.76) 中 ， 我 们 将 第 一 项 视 为 潜 变量 的 近似 后 验 下 可 见 和 隐藏 变量 的 联合 对 数 
似 然 性 〈 正 如 EM 一 样 ， 不 同 的 是 我 们 使 用 近似 而 不 是 精确 后 验 )。 第 二 项 则 可 视 
为 近似 后 验 的 彤 。 当 9 被 选择 为 高 斯 分 布 ， 其 中 噪声 被 添加 到 预测 平均 值 时 ， 最 大 
化 该 精 项 促使 该 噪声 标准 侦 差 的 增加 。 更 一 般 地 ， 这 个 焙 项 鼓励 变 分 后 验 将 高 概率 
质量 置 于 可 能 已 经 产生 z 的 许多 z 值 上 ， 而 不 是 纳 缩 到 单个 估计 最 可 能 值 的 点 。 在 
式 (20.77) 中 ,我们 将 第 一 项 视 为 在 其 他 自 编 码 器 中 出 现 的 重 构 对 数 似 然 。 第 二 项 试 
图 使 近似 后 验 分 布 g(z | z) 和 模型 先 验 pmoael(z] 彼此 接近 。 

变 分 推 新 和 学 习 的 传统 方法 是 通过 优化 算法 推 新 4， 通常 是 迭代 不 动 点 方程 
(第 19.4 节 ) 这 些 方法 是 缓慢 的 , 并 且 通 常 需 要 以 财 解 形式 计算 下 log puodel(z 四 )。 
变 分 自 编码 器 背后 的 主要 思想 是 训练 产生 4 参数 的 参数 编码 吉 〈《 有 时 也 称 为 推断 网 
络 或 识别 模型 )。 只 要 z 是 连续 变量 ， 我 们 就 可 以 通过 从 g(z| zj) = 4( 2 Ac O9)) 中 
采样 z 的 样本 反 向 传播 ， 以 获得 相对 于 9 的 梯度 。 学 习 则 仅 包括 相对 于 编码 器 和 解 
码 器 的 参数 最 大 化 C。Z 中 的 所 有 期 望都 可 以 通过 蒙特 卡 罗 采 样 来 近似 。 

变 分 自 编 码 噩 方法 是 优雅 的 ,理论 上 令 人 人 愉快 的 , 并 且 易 于 实现 。 它 也 获得 了 出 
色 的 结果 , 是 生成 式 建 模 中 的 最 先进 方法 之 一 。 它 的 主要 缺点 是 从 在 图 像 上 训练 的 变 
分 自 编 码 器 中 采样 的 样本 往往 有 些 模糊 。 这 种 现象 的 原因 尚 不 清楚 。 一 种 可 能 性 是 
模糊 性 是 最 大 似 然 的 固有 效应 ， 因 为 我 们 需要 最 小 化 PKr(paata||pmoae)。 如 图 3.6 所 
示 , 这 意味 着 模型 将 为 训练 集中 出 现 的 点 分 配 高 的 概率 , 但 也 可 能 为 其 他 点 分 配 高 的 
概率 。 还 有 其 他 原因 可 以 导致 模糊 图 像 。 模 型 选择 将 概率 质量 置 于 模糊 图 像 而 不 是 空 
间 的 其 他 部 分 的 部 分 原因 是 实际 使 用 的 变 分 自 编 码 器 通常 在 pmoadel(z; 9( 习 ) 使 用 高 
斯 分 布 。 最 大 化 这 种 分 布 似 然 性 的 下 界 与 训练 具有 均 方 误 差 的 传统 自 编 码 吕 类似， 
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这 意味 着 它 倾向 于 忽略 由 少量 像素 表示 的 特征 或 其 中 亮度 变化 微小 的 像素 。 如 Theis 
ef ol (2015) 和 Huszar (2015) 指出 的 ， 该 问题 不 是 VAE 特有 的 ， 而 是 与 优化 对 数 
似 然 或 Dr (paata||pmoael) 的 生成 模型 共享 的 。 现 代 VAE 模型 另 一 个 麻 上 烦 的 问题 是 ， 
它们 倾向 于 仅 使 用 z 维度 中 的 小 子 集 ， 就 像 编 码 器 不 能 够 将 具有 足够 局 部 方向 的 输 
人 空间 变换 到 边缘 分 布 与 分 解 前 匹配 的 空间 。 

VAE 框架 可 以 直接 扩展 到 大 范围 的 模型 架构 。 相 比 玻 尔 效 曼 机 ， 这 是 关键 的 优 
势 ， 因 为 玻 尔 效 曼 机 需要 非常 仔细 地 设计 模型 来 保持 易 解 性 。VAE 可 以 与 广泛 的 可 
微 算 子 族 一 起 良好 工作 。 一 个 特别 复杂 的 VAE 是 深度 循环 注意 写 者 (DRAW) 模型 
(Gregor et al., 2015)。DRAW 使 用 一 个 循环 编码 器 和 循环 解码 需 并 结合 注意 力 机 制 。 
DRAW 模型 的 生成 过 程 包括 顺序 访问 不 同 的 小 图 像 块 并 绘制 这 些 点 处 的 像素 值 。 
我 们 还 可 以 通过 在 VAE 框架 内 使 用 循环 编码 器 和 解码 器 来 定义 变 分 RNN (Chung 
ef 咏 ，2015b) 来 扩展 VAE 以 生成 序列 。 从 传统 RNN 生成 样本 仅 在 输出 空间 涉及 
非 确定 性 操作 。 而 变 分 RNN 还 具有 由 VAE 湾 变 量 捕获 的 潜在 更 抽象 层 的 随机 变化 


性 。 






































VAE 框架 已 不 仅仅 扩展 到 传统 的 变 分 下 界 , 还 有 重要 加 权 自 编码 器 (imnportance- 
weighted autoencoder)(Burda et al., 2015) 的 目标 : 





开 巡 
1 Dmodel( 2 2z) 
CDZ， d) 二 gz) ZE) vdg( 双 开 log 7 
多 qd( 寺 下) 天 qd(z(G) | 四) 

















(20.79) 
i 一 1 
这 个 新 的 目标 在 大 = 1 时 等 同 于 传统 的 下 界 C。 然 而 ， 它 也 可 以 被 解释 为 基于 提议 
分 布 q(z| z) 中 z 的 重要 采样 而 形成 的 真实 log pmoael(z) 估计 。 重要 加 权 自 编码 器 目 
标 也 是 log pmoaal(z) 的 下 界 ， 并 且 随 着 大 增加 而 变 得 更 紧 。 
变 分 自 编码 器 与 MP-DBM 和 其 他 涉及 通过 近似 推断 图 的 反 向 传播 方法 有 一 些 
有 趣 的 联系 (Goodfellow et al.,，2013d; Stoyanov et al/.，2011; Brakel et ol.，2013)。 
这 些 以 前 的 方法 需要 诸如 均匀 场 不 动 点 方程 的 推断 过 程 来 提供 计算 图 。 变 分 自 编码 
器 被 定义 为 任意 计算 图 ， 这 使 得 它 能 适用 于 更 广泛 的 概率 模型 族 ， 因 为 它 不 需要 将 
模型 的 选择 限制 到 具有 易 处 理 的 均匀 场 不 动 点 方程 的 那些 模型 。 变 分 自 编码 器 还 具 
有 增加 模型 对 数 似 然 边界 的 优点 ， 而 MP-DBM 和 相关 模型 的 准则 更 具 启 发 性 ， 并 
且 除 了 使 近似 推断 的 结果 准确 外 很 少 有 概率 的 解释 。 变 分 自 编 码 器 的 一 个 缺点 是 它 
仅 针对 一 个 问题 学 习 推断 网 络 ， 即 给 定 z 推断 zx。 较 老 的 方法 能 够 在 给 定 任何 其 他 
变量 子 集 的 情况 下 对 任何 变量 子 集 执行 近似 推 产 ， 因 为 均匀 场 不 动 点 方程 指定 如 何 
在 所 有 这 些 不 同 问题 的 计算 图 之 间 共 享 参数 。 



































20.10 有 向 生成 网 络 597 


变 分 自 编 码 噩 的 一 个 非常 好 的 特性 是 ， 同 时 训练 参数 编码 咒 与 生成 器 网 络 的 组 
合 迫 使 模型 学 习 一 个 编码 器 可 以 捕获 的 可 预测 的 坐标 系 。 这 使 得 它 成 为 一 个 优秀 
的 流 形 学 习 算 法 。 图 20.6 展 示 了 由 变 分 自 编码 器 学 到 的 低 维 流 形 的 例子 。 图 中 所 示 
的 情况 之 一 ， 算 法 发 现 了 存在 于 面部 图 像 中 两 个 独立 的 变化 因素 : 旋转 角 和 情绪 表 


达 。 





eceecececoooo0000000000 
SA22222866600000062 
qa2222222258555600006002 
qd922222223555666066027 
qd9494222222333555555537 
qdq3993922232333333555553 了 7 
3349399933333333355553 了 7 
93933999983533333333g83887 
93933399998333333388838387P 
93393999855535338883838887 
793939399983855888888889888 
33399998985886666698787 
79399999988556666665653577 
79999999886666065655 
79GI4I999956666606666537 
FGIGAI9I9I9355606606066b64U7 
FGIGI7I9I9I33344466066hUhA7 
用 用 手 于 了 了 73343446L46AUAA 
多 守 轩 有 生生 有 生生 
克 了 了 了 天 了 放生 





图 20.6: 由 变 分 自 编码 器 学 习 的 高 维 流 形 在 2 维 坐标 系 中 的 示例 (Kingma and Welling, 2014a)。 
我 们 可 以 在 纸 上 直 接 绘 制 两 个 可 视 化 的 维度 ， 因 此 可 以 使 用 2 维 潜 在 编码 训练 模型 来 了 解 模型 的 
工作 原理 (即使 我 们 认为 数据 流 形 的 固有 维度 要 高 得 多 )。 图 中 所 示 的 图 像 不 是 来 自 训练 集 的 样本 ， 
而 是 仅仅 通过 改变 2 维 “编码 ”>z， 由 模型 p(z | z 实际 生成 的 图 像 z ( 每 个 图 像 对 应 于 “编码 ”z 
位 于 2 维 均匀 网 格 的 不 同 选择 )。( 左 ) Frey 人 脸 流 形 的 2 维 映射 。 其 中 一 个 维度 〈 水 平 ) 已 发 现 
大 致 对 应 于 面部 的 旋转 ， 而 另 一 个 〈 垂 直 ) 对 应 于 情绪 表达 。( 右 ) MNIST 流 形 的 2 维 映射 。 

































































20.10.4 生成 式 对 抗 网 络 


生成 式 对 抗 网 络 ( generative adversarial network，GAN ) (Goodfellow et al， 
2014c) 是 基于 可 微 生 成 器 网 络 的 另 一 种 生成 式 建 模 方法 。 

生成 式 对 抗 网 络 基于 博弈 论 场 景 ， 其 中 生成 吉 网 络 必须 与 对 手 竞争 。 生 成 器 网 
络 直接 产生 样本 z = 9(z 094))。 其 对 手 ， 判 别 器 网 络 (discriminator network )， 试 
图 区 分 从 训练 数据 抽取 的 样本 和 从 生成 器 抽取 的 样本 。 判 别 器 发 出 由 d(z 09) 给 出 
的 概率 值 ， 指 示 z 是 真实 训练 样本 而 不 是 从 模型 抽取 的 伪造 样本 的 概率 。 
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形式 化 表示 生成 式 对 抗 网 络 中 学 习 的 最 简单 方式 是 零 和 游戏 ， 其 中 国 数 
u(64), 0) 确定 判别 器 的 收益 。 生 成 器 接收 -uv(842),0) 作为 它 自 己 的 收益 。 
在 学 习 期 间 ， 每 个 玩家 尝试 最 大 化 自己 的 收益 ， 因 此 收敛 在 





性 一 argmin Iax u(9, q). (20.80) 
9 





2 的 默认 选择 是 
u(8G),6(0) 一 了 pas logd(z) 十 了 wssaulog(1L 一 d(o). 420.81) 


这 驱使 判别 器 试图 学 习 将 样品 正确 地 分 类 为 真 的 或 伪造 的 。 同 时 ， 生 成 器 试图 欺骗 
分 类 器 以 让 其 相信 样本 是 真实 的 。 在 收敛 时 , 生成 器 的 样本 与 实际 数据 不 可 区 分 ,并 
且 判 别 器 处 处 都 输出 寺 。 然 后 就 可 以 丢弃 判别 器 。 

设计 GAN 的 主要 动机 是 学 习 过 程 既 不 需要 近似 推 新 也 不 需要 配 分 函数 梯度 的 
近似 。 当 maxav(9g,d) 在 06) 中 是 凸 的 〈 例 如 ， 在 概率 密度 函数 的 空间 中 直接 执行 
优化 的 情况 ) 时 ， 该 过 程 保证 收敛 并 且 是 渐 近 一 致 的 。 

不 境 的 是 , 在 实践 中 由 神经 网 络 表示 的 9 和 4d 以 及 maxuv(g,d) 不 凸 时 , GAN 中 
的 学 习 可 能 是 困难 的 。Goodfellow (2014) 认为 不 收敛 可 能 会 引起 GAN 的 欠 拟 合 问 
题 。 一 般 来 说 ， 同 时 对 两 个 玩家 的 成 本 梯度 下 降 不 能 保证 达到 平衡 。 例 如 ， 考 虑 价 
值 函 数 v(a, 刀 = 中， 其 中 一 个 玩家 控制 wa 并 产生 成 本 or， 而 另 一 玩家 控制 并 接 
收成 本 -abg。 如 果 我 们 将 每 个 玩家 建 模 为 无 穷 小 的 梯度 步 又 ， 每 个 玩家 以 另 一 个 玩 
家 为 代价 降低 自己 的 成 本 ， 则 c 和 进入 稳定 的 圆 形 轨迹 ， 而 不 是 到 达 原 点 处 的 平 
衔 点 。 注 意 ， 极 小 极 大 化 游戏 的 平衡 不 是 v 的 局 部 最 小 值 。 相 反 ， 它 们 是 同时 最 小 
化 的 两 个 玩家 成 本 的 点 。 这 意味 着 它们 是 v 的 鞍点 ， 相 对 于 第 一 个 玩家 的 参数 是 局 
部 最 小 值 ， 而 相对 于 第 二 个 玩家 的 参数 是 局 部 最 大 值 。 两 个 玩家 可 以 永 迁 轮流 增加 
然后 减少 v， 而 不 是 正好 停 在 玩家 没有 能 力 降低 其 成 本 的 鞍点 。 目 前 不 知道 这 种 不 收 
敛 的 问题 会 在 多 大 程度 上 影响 GAN。 

Goodfellow (2014) 确定 了 另 一 种 替代 的 形式 化 收益 公式 ， 其 中 博弈 不 再 是 零 和 ， 
每 当 判 别 需 最 优 时 ， 具 有 与 最 大 似 然 学 习 相同 的 预期 梯度 。 因 为 最 大 似 然 训练 收敛 ， 
这 种 GAN 博弈 的 重 述 在 给 定 足 够 的 样本 时 也 应 该 收敛 。 不 幸 的 是 ， 这 种 替代 的 形 
式 化 似乎 并 没有 提高 实践 中 的 收敛 ， 可 能 是 由 于 判别 器 的 次 优 性 或 围绕 期 望 梯度 的 
高 方差 。 

在 真实 实验 中 ，GAN 博弈 的 最 佳 表现 形式 既 不 是 堆 和 也 不 等 价 于 最 大 似 然 ， 而 
是 Goodfellow et ol. (2014c) 引入 的 带 有 启发 式 动 机 的 不 同形 式 化 。 在 这 种 最 佳 性 能 
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的 形式 中 ， 生 成 器 旨 在 增加 判别 器 发 生 错 误 的 对 数 概率 ， 而 不 是 旨 在 降低 判别 需 进 
行 正确 预测 的 对 数 概率 。 这 种 重 述 仅仅 是 观察 的 结果 ， 即 使 在 判别 器 确信 地 拒绝 所 
有 生成 器 样本 的 情况 下 ， 它 也 能 导致 生成 器 代价 函数 的 导数 相对 于 判别 器 的 对 数 保 
持 很 大 。 

稳定 GAN 学 习 仍 然 是 一 个 开放 的 问题 。 幸 运 的 是 ， 当 仔细 选择 模型 架构 和 
超 参 数 时 ，GAN 学 习 效 果 很 好 。Radford et a1. (2015) 设计 了 一 个 深度 卷 积 GAN 
(DCGAN ), 在 图 像 合成 的 任务 上 表现 非常 好 ,并 表明 其 潜在 的 表示 空间 能 捕获 到 变 
化 的 重要 因素 ， 如 图 15.9 所 示 。 岁 20.7 展 示 了 DCGAN 生成 器 生成 的 图 像 示 例 。 





图 20.7: 在 LSUN 数据 集 上 训练 后 ， 由 GAN 生成 的 图 像 。( 左 ) 由 DCGAN 模型 生成 的 卧室 图 
像 ， 经 Radford et ol. (2015) 许可 转载 。( 右 ) 由 LAPGAN 模型 生成 的 教 党 图像， 经 Denton et aol. 
(2015) 许可 转载 。 





GAN 学 习 问题 也 可 以 通过 将 生成 过 程 分 成 许多 级 别 的 细节 来 简化 。 我 们 可 以 训 
练 有 条 件 的 GAN (Mirza and Osindero, 2014) ， 并 学 习 从 分 布 p(z| 切 中 采样 ， 而 不 
是 简单 地 从 边缘 分 布 p(z) 中 采样 。Denton et a1. (2015) 表明 一 系列 的 条 件 GAN 可 
以 被 训练 为 首先 生成 非常 低 分 辨 率 的 图 像 ， 然 后 增 量 地 向 图 像 添 加 细节 。 由 于 使 用 
拉 普 拉 斯 金字 塔 来 生成 包含 不 同 细节 水 平 的 图 像 ， 这 种 技术 被 称 为 LAPGAN 模型 。 
LAPGAN 生成 器 不 仅 能 够 欺骗 判别 器 网 络 ， 而 且 能 够 欺骗 人 类 观察 者 ， 实 验 主体 将 
高 达 40% 的 网 络 输出 识别 为 真实 数据 。 请 看 图 20.7 中 LAPGAN 生成 器 生成 的 图 像 
示例 。 

GAN 训练 过 程 中 一 个 不 寻常 的 能 力 是 它 可 以 拟 合 向 训练 点 分 配 零 概率 的 概率 
分 布 。 生 成 器 网 络 学 习 跟 踪 其 点 在 某 种 程度 上 类 似 于 训练 点 的 流 形 ， 而 不 是 最 大 化 
特定 点 的 对 数 概率 。 有 点 矛盾 的 是 ， 这 意味 着 模型 可 以 将 负 无 穷 大 的 对 数 似 然 分 配 


600 第 二 十 章 深度 生成 模型 


给 测试 集 ， 同 时 仍然 表示 人 类 观察 者 判断 为 能 捕获 生成 任务 本 质 的 流 形 。 这 不 是 明 
显 的 优点 或 缺点 ， 并 且 只 要 向 生成 器 网 络 最 后 一 层 所 有 生成 的 值 添 加 高 斯 噪声 ， 就 
可 以 保证 生成 器 网 络 向 所 有 点 分 配 非 零 概 率 。 以 这 种 方式 添加 高 斯 噪声 的 生成 器 网 
络 从 相同 分 布 的 采样 ， 即 使 用 生成 器 网 络 参 数 化 条 件 高 斯 分 布 的 均值 所 获得 的 分 布 。 

Droponut 似乎 在 判别 需 网 络 中 很 重要 。 特 别 地 , 在 计算 生成 器 网 络 的 梯度 时 , 单 
元 应 当 被 随机 地 丢弃 。 使 用 权重 除 以 二 的 确定 性 版 本 的 判别 需 的 梯度 似乎 不 是 那么 
有 效 。 同 样 ， 从 不 使 用 Droponut 似乎 会 产生 不 良 的 结果 。 

虽然 GAN 框架 被 设计 为 用 于 可 微 生 成 需 网 络 , 但 是 类 似 的 原理 可 以 用 于 训练 其 
他 类 型 的 模型 。 例 如 , 自 监督 提升 ( self-supervised boosting) 可 以 用 于 训练 RBM 生 
成 器 以 坎 骗 逻辑 回归 判别 器 (Welling et ol. ,2002)。 























20.10.5 ”生成 矩 匹 配 网 络 


生成 矩 匹 配 网 络 〈generative moment matching network ) (Li et al.，2015; Dzi- 
ugaite et ol., 2015) 是 另 一 种 基于 可 微 生 成 器 网 络 的 生成 模型 。 与 VAE 和 GAN 不 
同 ， 它 们 不 需要 将 生成 器 网 络 与 任何 其 他 网 络 配对 ， 如 不 需要 与 用 于 VAE 的 推断 网 
络 配对 ， 也 不 需要 与 GAN 的 判别 器 网 络 。 

生成 矩 匹 配 网 络 使 用 称 为 矩 匹 配 ( moment matching ) 的 技术 训练 。 和 矩 匹 配 背 
后 的 基本 思想 是 以 如 下 的 方式 训练 生成 器 一 一 令 模 型 生成 的 样本 的 许多 统计 量 尽 可 
能 与 训练 集中 的 样本 相似 。 在 此 情景 下 ， 德 (moment ) 是 对 随机 变量 不 同 寡 的 期 
望 。 例 如 ， 第 一 矩 是 均值 ， 第 二 矩 是 平方 值 的 均值 ， 以 此 类 推 。 多 维 情况 下 ， 随 机 向 
量 的 每 个 元 素 可 以 被 升 高 到 不 同 的 震 ， 因 此 使 得 矩 可 以 是 任意 数量 的 形式 


























E。 | [zz (20.82) 





其 中 双 = [man ,nd 是 一 个 非 负 整数 的 向 量 。 

在 第 一 次 检查 时 ， 这 种 方法 似乎 在 计算 上 是 不 可 行 的 。 例 如 ， 如 果 我 们 想 匹 配 
形式 为 wzj 的 所 有 矩 ， 那 么 我 们 需要 最 小 化 在 z 的 维度 上 是 二 次 的 多 个 值 之 间 的 
差 。 此 外 ， 甚 至 匹配 所 有 第 一 和 第 二 和 将 仅 足 以 拟 合 多 变量 高 斯 分 布 ， 其 仅 捕 获 值 
之 间 的 线性 关系 。 我 们 使 用 神经 网 络 的 野心 是 捕获 复杂 的 非 线性 关系 ， 这 将 需要 更 
多 的 抢 。GAN 通过 使 用 动态 更 新 的 判别 器 避免 了 穷 举 所 有 和 矩 的 问题 ， 该 判别 需 自 动 
将 其 注意 力 集中 在 生成 器 网 络 最 不 匹配 的 统计 量 上 。 
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相反 ， 我 们 可 以 通过 最 小 化 一 个 被 称 为 最 大 平均 偏差 (maximum mean dis- 
crepancy，MMD ) (Sch5lkopf and Smola,， 2002; Gretton et al., 2012) 的 代价 函数 来 
训练 生成 矩 匹 配 网 络 。 该 代价 函数 通过 向 核 数 定义 的 特征 空间 隐 式 映射 ， 在 无 限 
维 空间 中 测量 第 一 矩 的 误差 ， 使 得 对 无 限 维 向 量 的 计算 变 得 可 行 。 当 且 仅 当 所 比较 
的 两 个 分 布 相等 时 ，MMD 代价 为 零 。 

从 可 视 化 方面 看 ,来 自生 成 矩 匹 配 网 络 的 样本 有 点 令 人 失望 。 和 幸运 的 是 ， 它 们 
可 以 通过 将 生成 器 网 络 与 自 编 码 器 组 合 来 改进 。 首 先 ， 训 练 自 编码 器 以 重 构 训 练 集 。 
接 下 来 ， 自 编码 器 的 编码 器 用 于 将 整个 训练 集 转换 到 编码 空间 。 然 后 训练 生成 器 网 
络 以 生成 编码 样本 ， 这 些 编码 样本 可 以 经 解码 需 映 射 到 视觉 上 令 人 满意 的 样本 。 

与 GAN 不 同 ， 代 价 函 数 仅 关 于 一 批 同 时 来 自 训练 集 和 生成 器 网 络 的 实例 定义 。 
我 们 不 可 能 将 训练 更 新 作为 一 个 训练 样本 或 仅 来 自生 成 器 网 络 的 一 个 样本 的 函数 。 
这 是 因为 必须 将 和 矩 计算 为 许多 样本 的 经 验 平 均值 。 当 批量 大 小 太 小 时 ，MMD 可 能 
低估 采样 分 布 的 真实 变化 量 。 有 限 的 批量 大 小 都 不 足以 大 到 完全 消除 这 个 问题 ， 但 
是 更 大 的 批量 大 小 减少 了 低估 的 量 。 当 批量 大 小 太 大 时 ， 训 练 过 程 就 会 慢 得 不 可 行 ， 
因为 计算 单个 小 梯度 步 长 必须 一 下 子 处 理 许 多 样本 。 





与 GAN 一 样 , 即使 生成 器 网 络 为 训练 点 分 配 零 概率 , 仍 可 以 使 用 MMD 训练 生 
成 器 网 络 。 


20.10.6 ” 卷 积 生成 网 络 


当 生成 图 像 时 ， 将 卷 积 结构 的 引入 生成 器 网 络 通常 是 有 用 的 〈 见 Goodfellow 
ef ol. (2014c) 或 Dosovitskiy et al. (2015) 的 例子 )。 为 此 ,我 们 使 用 卷 积 算 子 的 “ 转 
置 ”， 如 第 9.5 节 所 述 。 这 种 方法 通常 能 产生 更 逼真 的 图 像 , 并 且 比 不 使 用 参数 共享 的 
全 连接 层 使 用 更 少 的 参数 。 

用 于 识别 任务 的 卷 积 网 络 具 有 从 图 像 到 网 络 顶 部 的 某 些 概括 层 (通常 是 类 标签 ) 
的 信息 流 。 当 该 图 像 通过 网 络 向 上 流动 时 ， 随 着 图 像 的 表示 变 得 对 于 有 害 变 换 保 持 
不 变 ,， 信 息 也 被 丢弃 。 在 生成 器 网 络 中 , 情况 恰恰 相反 。 要 生成 图 像 的 表示 通过 网 络 
传播 时 必须 添加 丰富 的 详细 信息 ， 最 后 产生 图 像 的 最 终 表示 ， 这 个 最 终 表示 当然 是 
带 有 所 有 细节 的 精细 图 像 本 身 ( 具有 对 象 位 置 、 姿 势 、 纹 理 以 及 明暗 )。 在 卷 积 识别 
网 络 中 丢弃 信息 的 主要 机 制 是 池 化 层 。 而 生成 器 网 络 似乎 需要 添加 信息 。 由 于 大 多 
数 池 化 函数 不 可 关 ， 我 们 不 能 将 池 化 层 求 逆 后 放 和 生成 器 网 络 。 更 简单 的 操作 是 仅 
仅 增加 表示 的 空间 大 小 。 似 乎 可 接受 的 方法 是 使 用 Dosovitskiy et ol. (2015) 引入 的 
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“去 池 化 "。 该 层 对 应 于 某 些 简化 条 件 下 最 大 池 化 的 逆 操作 。 首 先 ， 最 大 池 化 操作 的 
步 幅 被 约束 为 等 于 池 化 区 域 的 宽度 。 其 次 ， 每 个 池 化 区 域内 的 最 大 输入 被 假定 为 左 
上 和 角 的 输入 。 最 后 ， 假 设 每 个 池 化 区 域内 所 有 非 最 大 的 输入 为 零 。 这 些 是 非常 强 和 
不 现实 的 假设 ， 但 它们 人 允许 我 们 对 最 大 池 化 算 子 求 着 。 闭 去 池 化 的 操作 分 配 一 个 零 
张 量 ， 然 后 将 每 个 值 从 输入 的 空间 坐标 ? 复制 到 输出 的 空间 坐标 ; x K。 整 数值 上 定 
义 池 化 区 域 的 大 小 。 即 使 驱动 去 池 化 算 子 定义 的 假设 是 不 现实 的 ， 后 续 层 也 能 够 学 
习 补 途 其 不 寻常 的 输出 ， 所 以 由 整体 模型 生成 的 样本 在 视觉 上 令 人 满意 。 











20.10.7 自 回 归 网 络 


自 回 归 网 络 是 没有 潜在 随机 变量 的 有 向 概率 模型 。 这 些 模型 中 的 条 件 概率 分 布 
由 神经 网 络 表示 (有 时 是 极 简 单 的 神经 网 络 ， 例 如 逻辑 回归 )。 这 些 模 型 的 图 结构 
是 完全 图 。 它 们 可 以 通过 概率 的 链 式 法 则 分 解 观察 变量 上 的 联合 概率 ， 从 而 获得 形 
如 Plza | zz1) 条 件 概 率 的 乘积 。 这 样 的 模型 被 称 为 完全 可 见 的 贝 叶 斯 网 
络 (fully-visible Bayes networks, FEVBN )， 并 成 功 地 以 许多 形式 使 用 ， 首 先是 对 每 
个 条 件 分 布 逻辑 回归 (Frey, 1998) ， 然 后 是 带 有 隐藏 单元 的 神经 网 络 (Bengio and 
Bengio, 2000b; Larochelle and Murray, 2011)。 在 某 些 形式 的 自 回归 网 络 中 ， 例 如 在 
第 20.10.10 节 中 描述 的 NADE (Larochelle and Murray, 2011), 我 们 可 以 引入 参数 共 
享 的 一 种 形式 ， 它 能 带 来 统计 优点 〈 较 少 的 唯一 参数 ) 和 计算 优势 ( 较 少 计算 量 )。 
这 是 深度 学 习 中 反复 出 现 的 主题 一 一 特征 重用 的 另 一 个 实例 。 


























20.10.8 ”线性 自 回归 网 络 


自 回 归 网 络 的 最 简单 形式 是 没有 隐藏 单元 、 没 有 参数 或 特征 共享 的 形式 。 每 个 
P(zi | 2 21) 被 参数 化 为 线性 模型 ( 对 于 实 值 数据 的 线性 回归 ， 对 于 二 值 数 据 
的 逻辑 回归 ， 对 于 离散 数据 的 softmax 回 归 )。 这 个 模型 由 Frey (1998) 引入 ， 当 有 ad 
个 变量 要 建 模 时 ， 该 模型 有 O(d2) 个 参数 。 如 图 20.8 所 示 。 

如 果 变 量 是 连续 的 ， 线 性 自 回归 网 络 只 是 表示 多 元 高 斯 分 布 的 另 一 种 方式 ， 只 
能 捕获 观察 变量 之 间 线 性 的 成 对 相互 作用 。 

线性 自 回归 网 络 本 质 上 是 线性 分 类 方法 在 生成 式 建 模 上 的 推广 。 因 此 ， 它 们 有 具 
有 与 线性 分 类 器 相同 的 优 缺 点 。 像 线性 分 类 器 一 样 ， 它 们 可 以 用 凸 损失 函数 训练 , 并 
且 有 时 人 允许 闭 解 形式 (如 在 高 斯 情况 下 )。 像 线性 分 类 需 一 样 ， 模 型 本 身 不 提供 增加 
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图 20.8: 完全 可 见 的 信念 网 络 从 前 “一 工 个 变量 预测 第 ;个 变量 。( 上 ) FVBN 的 有 向 图 模型 。( 下 ) 


对 数 FVBN 相应 的 计算 图 














， 其 中 每 个 预测 由 线性 预测 器 作出 。 














其 容量 的 方法 ， 因 此 必须 使 用 其 他 技术 〈 如 输入 的 基 扩 展 或 核 技巧 ) 来 提高 容量 。 


20.10.9 ”神经 自 回 归 网 络 





神经 自 回 归 网 络 (Bengio and Bengio, 2000a,b) 具有 与 逻辑 自 回归 网 络 相 同 的 从 
左 到 右 的 图 模型 ( 图 20.8 )， 但 在 该 图 模型 结构 内 采用 不 同 的 条 件 分 布 参数 。 新 的 参 
数 化 更 强大 ， 它 可 以 根据 需要 随意 增加 容量 ， 并 人 允许 近似 任意 联合 分 布 。 新 的 参数 


化 还 可 以 引入 深度 学 习 
些 模型 的 动机 是 避免 伟 


























中 常见 的 参数 共享 和 特征 共享 原理 来 改进 泛 化 能 力 。 设 计 这 
统 表格 图 模型 引起 的 维 数 灾难 ， 并 与 图 20.8 共 享 相同 的 结构 。 





在 表格 离散 概率 模型 中 ， 每 个 条 件 分 布 由 概率 表 表 示 ， 其 中 所 涉及 的 变量 的 每 个 可 


能 配置 都 具有 一 个 条 目 


和 一 个 参数 。 通 过 使 用 神经 网 络 ， 可 以 获得 两 个 优点 : 


1. 通过 具有 (一 1) x 天 个 输入 和 天 个 输出 的 神经 网 络 〈 如 果 变 量 是 离散 的 并 有 天 
个 值 ， 使 用 one-hot 编 码 ) 参数 化 每 个 P(m | zi ,2Z1)， 证 我 们 不 需要 指数 
量 级 参数 (和 样本 ) 的 情况 下 就 能 佑 计 条 件 概率 ， 然 而 仍然 能 够 捕获 随机 变量 





之 间 的 高 阶 依赖 性 


LOD 


2. 不 需要 对 预测 每 个 z; 使 用 不 同 的 神经 网 络 , 如 图 20.9 所 示 的 从 左 到 右 连 接 , 人 允 
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许 将 所 有 神经 网 络 合并 成 一 个 。 等 价 地 , 它 意味 着 为 预测 zx; 所 计算 的 隐藏 层 特 
征 可 以 重新 用 于 预测 zx (& > 0)。 因 此 隐藏 单元 被 组 织 成 第 守 组 中 的 所 有 单 
元 仅 依赖 于 输入 值 zt .…，,z; 的 特定 的 组 。 用 于 计算 这 些 隐藏 单元 的 参数 被 联 
合 优化 以 改进 对 序列 中 所 有 变量 的 预测 。 这 是 重用 原理 的 一 个 实例 ， 这 是 从 循 
环 和 卷 积 网 络 架 构 到 多 任务 和 迁移 学 习 的 场景 中 反复 出 现 的 深度 学 习 原 理 。 











图 20.9: 神经 自 回归 网 络 从 前 -1 个 变量 预测 第 《个 变量  ， 但 经 参数 化 后 ,作为 zi ,zi 国 
数 的 特征 (表示 为 应 的 隐藏 单元 的 组 ) 可 以 在 预测 所 有 后 续 变 量 zi+li,zi+2,...,zd 时 重用 。 
































如 在 第 6.2.2.1 节 中 讨论 的 ， 使 神经 网 络 的 输出 预测 mm 条 件 分 布 的 参数 ， 
个 P(zi | zi ,21) 就 可 以 表示 一 个 条 件 分 布 。 虽 然 原 始 神经 自 回归 网 络 最 初 
是 在 纯粹 离散 多 变量 数据 ( 带 有 sigmoid 输出 的 Bernoulli 变量 或 softmax 输出 
的 Multinoulli 变量 ) 的 背景 下 评估 ， 但 我 们 可 以 自然 地 将 这 样 的 模型 扩展 到 连续 变 
量 或 同时 涉及 离散 和 连续 变量 的 联合 分 布 。 


20.10.10 NADPE 


神经 自 回 归 密 度 估 计 器 ( neural auto-regressive density estimator, NADE ) 是 最 
近 非 常 成 功 的 神经 自 回归 网 络 的 一 种 形式 (Larochelle and Murray, 2011)。 与 Bengio 
and Bengio (2000b) 的 原始 神经 自 回 归 网 络 中 的 连接 相同 , 但 NADE 引入 了 附加 
的 参数 共享 方案 ， 如 网 20.10 所 示 。 不 同 组 7 的 隐藏 单元 的 参数 是 共享 的 。 


从 第 守 个 输入 mw 到 第 7 组 隐藏 单元 的 第 大 个 元 素 用) (7 > 让 的 权重 和; 是 
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组 内 共享 的 : 


到 7 二 到 (20.83) 





NHl 


余 了 < 1 的 权重 为 零 。 








图 20.10: 神经 自 回归 密度 估计 器 (NADE ) 的 示意 图 。 隐 藏 单 元 被 组 织 在 组 几 2) 中 ， 使 得 只 有 输 
入 zl .2i 参与 计算 几 0 和 预测 P(zj | zi,z1) (对 于 7J >1i)。 NADE 使 用 特定 的 权重 共 
享 模式 区 别 于 早期 的 神经 自 回归 网 络 : Ti = 凡 si 被 共享 于 所 有 从 zz 到 任何 了 >: 组 中 第 大 个 
单元 的 权重 (在 图 中 使 用 相同 的 线 型 表示 复制 权重 的 每 个 实例 )。 注 意向 量 (Ts 2 ,Ti 
记 为 全 :io 



























































Larochelle and Murray (2011) 选择 了 这 种 共享 方案 ， 使 得 NADE 模型 中 的 正 
向 传播 与 在 均匀 场 推 类 中 执行 的 计算 大 致 相似 , 以 填充 RBM 中 缺失 的 输入 。 这 个 均 
匀 场 推断 对 应 于 运行 具有 共享 权重 的 循环 网 络 ， 并 且 该 推 产 的 第 一 步 与 NADE 中 的 
相同 。 使 用 NADE 的 唯一 区 别 是 ， 连 接 隐 藏 单元 到 输出 的 输出 权重 独立 于 连接 输入 
单元 和 隐藏 单元 的 权重 进行 参数 化 。 在 RBM 中 ， 隐 藏 到 输出 的 权重 是 输入 到 隐藏 
权重 的 转 置 。NADE 架构 可 以 扩展 为 不 仅仅 模拟 均匀 场 循 环 推断 的 一 个 时 间 步 ， 而 
是 丰 步 。 这 种 方法 称 为 NADE-K (Raiko et al., 2014)。 

如 前 所 述 , 自 回归 网 络 可 以 被 扩展 成 处 理 连 续 数 据 。 用 于 参数 化 连续 密度 的 特别 
强大 和 通用 的 方法 是 混合 权重 为 o; (组 ;的 系数 或 先 验 概率 )， 每 组 条 件 均值 为 几 
和 每 组 条 件 方 差 为 o? 的 高 斯 混合 体 。 一 个 称 为 RNADE 的 模型 (Uria et al.， 2013) 
使 用 这 种 参数 化 将 NADE 扩展 到 实 值 。 与 其 他 混合 密度 网 络 一 样 ， 该 分 布 的 参数 是 
网 络 的 输出 ， 由 softmax 单元 产生 混合 的 权 量 概率 以 及 参数 化 的 方差 ， 因 此 可 使 它 
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们 为 正 的 。 由 于 条 件 均值 上 和 条 件 方差 xc2 之 间 的 相互 作用 ， 随 机 梯度 下 降 在 数值 
上 可 能 会 表现 不 好 。 为 了 减少 这 种 困难 ，Uria et olL. (2013) 在 后 向 传播 阶段 使 用 伪 梯 
度 代替 平均 值 上 的 梯度 。 

另 一 个 非常 有 趣 的 神经 自 回 归 架 构 的 扩展 摆脱 了 为 观察 到 的 变量 选择 任意 顺序 
的 需要 (Murray and Larochelle, 2014)。 在 自 回归 网 络 中 ， 该 想法 是 训练 网 络 以 能 够 
通过 随机 采样 顺序 来 处 理 任何 顺序 ， 并 将 信息 提供 给 指定 哪些 输入 被 观察 的 隐藏 单 
元 (在 条 件 条 的 右 侧 )， 以 及 哪些 是 被 预测 并 因此 被 认为 是 缺失 的 〈 在 条件 条 的 左 
侧 )。 这 是 不 错 的 性 质 ， 因 为 它 允 许 人 们 非常 高 效 地 使 用 训练 好 的 自 回 归 网 络 来 执行 
任何 推断 间 题 〈 即 从 给 定 任 何 变量 的 子 集 ， 从 任何 子 集 上 的 概率 分 布 预测 或 采样 )。 
最 后 ， 由 于 变量 的 许多 顺序 是 可 能 的 〈 对 于 个 变量 是 ww )， 并 且 变 量 的 每 个 顺序 o 
产生 不 同 的 p(x | o)， 我 们 可 以 组 成 许多 o 值 模型 的 集成 : 


开 
| 
77 呈 DIE 人 (天 ) 和 天 > D(X | oG). (20.84) 
2 二 


这 个 集成 模型 通常 能 更 好 地 泛 化 ,并且 为 测试 集 分 配 比 单个 排序 定义 的 单个 模型 更 
高 的 概率 。 

在 同一 篇 文章 中 ， 作 者 提出 了 深度 版 本 的 架构 ， 但 不 幸 的 是 ， 这 立即 使 计算 成 
本 像 原 始 神经 自 回归 网 络 一 样 高 (Bengio and Bengio, 2000b)。 第 一 层 和 输出 层 仍 然 
可 以 在 O(nj) 的 乘法 -加 法 操作 中 计算 ， 如 在 常规 NADE 中 ， 其 中 尹 是 隐藏 单元 的 
数量 (图 20.10 和 图 20.9 中 的 组 访 的 大 小 )， 而 它 在 Bengio and Bengio (2000b) 中 
是 O(n2j。 然 而 ， 对 于 其 他 隐藏 层 的 计算 量 是 O(n27j2) (假设 在 每 个 层 存 在 郊 组 网 
个 隐藏 单元 ， 且 在 1! 层 的 每 个 “先前 ”组 参与 预测 1 + 1 层 处 的 “下 一 个 ”组 )。 如 
在 Murray and Larochelle (2014) 中 , 使 1 上 +1L 层 上 的 第 ;个 组 仅 取决 于 第 宇 个 组 ，/7 
层 处 的 计算 量 将 减少 到 O(mj2) ， 但 仍然 比 常规 NADE 差 刀 倍 。 














20.11 ”从 自 编 码 器 采样 


在 第 十 四 章 中 ， 我 们 看 到 许多 种 学 习 数 据 分 布 的 自 编码 器 。 得 分 匹配 、 去 噪 自 
编码 器 和 收缩 自 编码 器 之 间 有 着 密切 的 联系 。 这 些 联系 表明 某 些 类 型 的 自 编 码 天 以 
某 些 方式 学 习 数 据 分 布 。 我 们 还 没有 讨论 如 何 从 这 样 的 模型 中 采样 。 

某 些 类 型 的 自 编码 器 ， 例 如 变 分 自 编码 器 ， 明 确 地 表示 概率 分 布 并 且 允 许 直 接 
的 原始 采样 。 而 大 多 数 其 他 类 型 的 自 编码 器 则 需要 MCMSC 采样 。 
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收缩 自 编码 需 被 设计 为 恢复 数据 流 形 切面 的 估计 。 这 意味 着 使 用 注入 噪声 的 
重复 编码 和 解码 将 引起 沿 着 流 形 表面 的 随机 游 走 (Rifai et al.，2012; Mesnil et al 
2012)。 这 种 流 形 扩散 技术 是 马尔 可 夫 链 的 一 种 。 

更 一 般 的 马尔 可 夫 链 还 可 以 从 任何 去 品 自 编码 器 中 采样 。 


20.11.1 “与 任意 去 噪 自 编码 器 相关 的 马尔 可 夫 链 


上 述 讨 论 留 下 了 一 个 开放 问题 一 一 注入 什么 噪声 和 从 哪 获得 马尔 可 夫 链 ( 可 以 
根据 自 编码 器 估计 的 分 布 生成 样本 )。Bengio et olL. (2013c) 展示 了 如 何 构建 这 种 用 
于 广义 去 噪 自 编码 器 (generalized denoising autoencoder) 的 马尔 可 夫 链 。 广 义 去 噪 
自 编 码 器 由 去 噪 分 布 指 定 ， 给 定 损坏 输入 后 ， 对 干净 输入 的 估计 进行 采样 。 

根据 估计 分 布 生成 的 马尔 可 夫 链 的 每 个 步骤 由 以 下 子 步骤 组 成 ， 如 图 20.11 所 
示 : 


1. 从 先前 状态 z 开始 ， 注 人 损坏 噪声 ， 从 C(| z) 中 采样 z。 
2. 将 子 编 码 为 屡 = j/)。 





3. 解码 疡 以 获得 px|lw =9( 闪 ) =P(X| 们 的 参数 w = 9( 门 。 
4 从 pxlw=9( 癌 ) =p(x | 了 采样 下 一 状态 z。 


Bengio et aol. (2014) 表明 ， 如 果 自 编码 器 p(x | 芭 形成 对 应 真实 条 件 分 布 的 一 致 佑 
计量 ， 则 上 述 马 尔 可 夫 链 的 平稳 分 布 形成 数据 生成 分 布 x 的 一 致 估计 量 (虽然 是 隐 
式 的 )。 


20.11.2 “” 夹 合 与 条 件 采 样 





与 玻 尔 效 曼 机 类 似 ， 去 噪 自 编码 器 及 其 推广 (例如 下 面 描述 的 GSN ) 可 用 于 
从 条 件 分 布 p(xy | xo) 中 采样 ， 只 需 夹 合 观察 单元 xj 并 在 给 定 xf 和 采 好 的 潜 变 
量 (如 果 有 的 话 ) 下 仅 重 采样 自由 单元 xo。 例如 ，MP-DBM 可 以 被 解释 为 去 噪 自 
编码 器 的 一 种 形式 ， 并 且 能 够 采样 丢失 的 输入 。GSN 随后 将 MP-DBM 中 的 一 些 想 
法 推广 以 执行 相同 的 操作 (Bengio et w., 2014)。Alain et al. (2015) 从 Bengio et ol 
(2014) 的 命题 1 中 发 现 了 一 个 缺失 条 件 ， 即 转移 算 子 (由 从 链 的 一 个 状态 到 下 一 个 
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图 20.11: 马尔 可 夫 链 的 每 个 步骤 与 训练 好 的 去 噪 自 编码 器 相关 联 ， 根 据 由 去 噪 对 数 似 然 准则 隐 式 
训练 的 概率 模型 生成 样本 。 每 个 步 又 包括 : (a) 通过 损坏 过 程 C 向 状态 z 注入 噪声 产生 z，(b) 用 
男 数 厂 对 其 编码 ,产生 瑚 = j 人 ，(c) 用 函数 9 解码 结果 ， 产 生 用 于 重 构 分 布 的 参数 ，(d) 给 
定 吕 ， 从 重 构 分 布 p(x | w = 9(jJ2)) 采样 新 状态 。 在 典型 的 平方 重 构 误 差 情况 下 ，9( 和 站 =， 并 
估计 正 [z | ， 损 坏 包 括 添 加 高 斯 噪声 ， 并 且 从 p(xlw) 的 采样 包括 第 二 次 向 重 构 之 添加 高 斯 噪声 。 
后 者 的 噪声 水 平 应 对 应 于 重 构 的 均 方 误差 ， 而 注入 的 噪声 是 控制 混合 速度 以 及 估计 器 平滑 经 验 分 
布 程度 的 超 参 数 (Vincent, 2011)。 在 这 所 示 的 例子 中 ， 只 有 C 和 Pp 条 件 是 随机 步 又 ( 广 和 9 是 
确定 性 计算 )， 我 们 也 可 以 在 自 编码 器 内 部 注入 噪声 ， 如 生成 随机 网 络 (Bengio et o/.,，2014)。 



































































































































状态 的 随机 映射 定义 ) 应 该 满足 细致 平衡 ( detailed balance ) 的 属性 ， 表 明 无 论 转 
移 算 子 正 回 或 反 向 运行 ， 马 尔 可 夫 链 都 将 保持 平衡 。 

在 图 20.12 中 展示 了 来 合 一 半 像 素 ( 图 像 的 右 部 分 ) 并 在 另 一 半 上 运行 马尔 可 夫 
链 的 实验 。 


20.11.3 回 退 训练 过 程 


回 退 训练 过 程 由 Bengio et ol!. (2013c) 等 人 提出 ， 作 为 一 种 加 速 去 噪 自 编码 器 生 
成 训练 收敛 的 方法 。 不 像 执 行 一 步 编 码 -解码 重建 ， 该 过 程 由 交 蔡 的 多 个 随机 编码 - 解 
码 步 又 组 成 ( 如 在 生成 马尔 可 夫 链 中 )， 以 训练 样本 初始 化 〈 正 如 在 第 18.2 节 中 描述 
的 对 比 散 度 算法 )， 并 惩罚 最 后 的 概率 重建 〈 或 沿途 的 所 有 重建 )。 

训练 天 个 步骤 与 训练 一 个 步 又 是 等 价 的 〈 在 实现 相同 稳 态 分 布 的 意义 上 )， 但 是 
实际 上 可 以 更 有 效 地 去 除 来 自 数据 的 伪 模 式 。 
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图 20.12: 在 每 步 仅 重 采 样 左 半 部 分 ， 夹 合 图 像 的 右 半 部 分 并 运行 马尔 可 夫 链 的 示意 图 。 这 些 样本 
来 自重 构 MNIST 数字 的 GSN ( 每 个 时 间 步 使 用 回 退 过 程 )。 




















20.12 ”生成 随机 网 络 


生成 随机 网 络 (generative stochastic network, GSN ) (Bengio et ol., 2014) 是 去 
品 自 编码 器 的 推广 ， 除 可 见 变量 (通常 表示 为 x) 之 外 ,在 生成 马尔 可 夫 链 中 还 包 
括 潜 变 量 h。 


GSN 由 两 个 条 件 概 率 分 布 参数 化 ， 指 定 马 尔 可 夫 链 的 一 步 : 

















1. p(x(to | ho) 指示 在 给 定 当前 潜在 状态 下 如 何 产生 下 一 个 可 见 变量 。 这 种 “ 重 
建 分布 ” 也 可 以 在 去 噪 自 编码 需 、RBM、DBN 和 DBM 中 找到 。 











2. p(h | ht,xw 9) 指示 在 给 定 先前 的 潜在 状态 和 可 见 变量 下 如 何 更 新 淤 


在 状态 变量 。 


去 噪 自 编码 器 和 GSN 不 同 于 经 典 的 概率 模型 ( 有 向 或 无 向 )， 它 们 自己 参数 化 
生成 过 程 而 不 是 通过 可 见 和 潜 变 量 的 联合 分 布 的 数学 形式 。 相 反 ， 后 者 如 果 存 在 则 
隐 式 地 定义 为 生成 马尔 可 夫 链 的 稳 态 分 布 。 存 在 稳 态 分 布 的 条 件 是 温和 的 ， 并 且 需 
要 与 标准 MCMSC 方法 相同 的 条 件 〈( 见 第 17.3 节 )。 这 些 条 件 是 保证 链 混合 的 必要 条 
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件 ， 但 它们 可 能 被 某 些 过 渡 分 布 的 选择 ( 例如 ， 如 果 它 们 是 确定 性 的 ) 所 违反 。 

我 们 可 以 想象 GSN 不 同 的 训练 准则 。 由 Bengio et aol. (2014) 提出 和 评估 的 
只 对 可 见 单元 上 对 数 概率 的 重建 ， 如 应 用 于 去 噪 自 编码 器 。 通 过 将 xto) = z 夹 
合 到 观察 到 的 样本 并 且 在 一 些 后 续 时 间 步 处 使 生成 z 的 概率 最 大 化 ， 即 最 大 化 
logp(x( = 2 ht)， 其 中 给 定 x0) = z 后 ，h(o 从 链 中 采样 。 为 了 估计 相对 于 模 
型 其 他 部 分 的 logp(x(to = zz ho) 的 梯度 ，Bengio et o/. (2014) 使 用 了 在 第 20.9 节 
中 介绍 的 重 参数 化 技巧 。 

回 退 训练 过 程 〈 在 第 20.11.3 节 中 描述 ) 可 以 用 来 改善 训练 GSN 的 收敛 性 
gio et ol.， 2014) 。 














Ben- 


At 


20.12.1 判别 性 GSN 


GSN 的 原始 公式 (Bengio et ol., 2014) 用 于 无 监督 学 习 和 对 观察 数据 x 的 p(x) 
的 隐 式 建 模 ， 但 是 我 们 可 以 修改 框架 来 优化 p(y | 四 。 


例如 ，Zhou and Troyanskaya (2014) 以 如 下 方式 推广 GSN， 只 反 向 传播 输出 变 
量 上 的 重建 对 数 概率 ， 并 保持 输入 变量 固定 。 他 们 将 这 种 方式 成 功 应 用 于 建 模 序列 
(和 蛋白质 二 级 结构 )， 并 在 马尔 可 夫 链 的 转换 算 子 中 引入 《一 维 ) 卷 积 结构 。 重 要 的 
是 要 记 住 ， 对 于 马尔 可 夫 链 的 每 一 步 ， 我 们 需要 为 每 个 层 生 成 新 序列 ， 并 且 该 序列 
用 于 在 下 一 时 间 步 计算 其 他 层 的 值 (例如 下 面 一 个 和 上 面 一 个 ) 的 输入 。 

因此 ， 马 尔 可 夫 链 确实 不 只 是 输出 变量 〈 与 更 高 层 的 隐藏 层 相 关联 )， 并 且 输 入 
序列 仅 用 于 条 件 化 该 链 ， 其 中 反 向 传播 使 得 它 能 够 学 习 输 入 序列 如 何 条 件 化 由 马尔 
可 夫 链 隐 含 表示 的 输出 分 布 。 因 此 这 是 在 结构 化 输出 中 使 用 GSN 的 一 个 例子 。 

Zohrer and Pernkopf (2014) 引入 了 一 个 混合 模型 ， 通 过 简单 地 添加 (使 用 不 
同 的 权重 ) 监督 和 非 监督 成 本 即 y 和 x 的 重建 对 数 概率 ， 组 合 了 监督 目标 (如 上 
面 的 工作 ) 和 无 监督 目标 (如 原始 的 GSN )。Larochelle and Bengio (2008a) 以 前 
在 RBM 中 就 提出 了 这 样 的 混合 标准 。 他 们 展示 了 在 这 种 方案 下 分 类 性 能 的 提升 。 
































20.13 ”其 他 生成 方案 


目前 为 止 我 们 已 经 描述 的 方法 ， 使 用 MCMSC 采样 、 原 始 采样 或 两 者 的 一 些 混 
合 来 生成 样本 。 虽 然 这 些 是 生成 式 建 模 中 最 流行 的 方法 ， 但 它们 绝 不 是 唯一 的 方法 。 
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Sohl-Dickstein et ol. (2015) 开发 了 一 种 基于 非 平 衡 热 力学 学 习 生 成 模型 的 扩散 
反 演 (difusion inversion) 训练 方案 。 该 方法 基于 我 们 和 希望 从 中 采样 的 概率 分 布 具有 
结构 的 想法 。 这 种 结构 会 被 递增 地 使 概率 分 布 具 有 更 多 灼 扩散 过 程 逐 渐 破 坏 。 为 
了 形成 生成 模型 ， 我 们 可 以 反 过 来 运行 该 过 程 ， 通 过 训练 模型 逐渐 将 结构 恢复 到 非 
结构 化 分 布 。 通 过 迭代 地 应 用 使 分 布 更 接近 目标 分 布 的 过 程 ， 我 们 可 以 逐渐 接近 该 
目标 分 布 。 在 涉及 许多 迭代 以 产生 样本 的 意义 上 ,这 种 方法 类 似 于 MCMSC 方法 。 然 
而 ,模型 被 定义 为 由 链 的 最 后 一 步 产 生 的 概率 分 布 。 在 这 个 意义 上 , 没有 由 迭代 过 程 
诱导 的 近似 。Sohl-Dickstein et ol. (2015) 介绍 的 方法 也 非常 接近 于 去 品 自 编码 需 的 
生成 解释 (第 20.11.1 节 )。 与 去 噪 自 编码 需 一 样 , 扩散 反 演 训练 一 个 尝试 概率 地 撤消 
添加 的 噪声 效果 的 转移 算 子 。 不 同 之 处 在 于 ， 扩 散 反 演 只 需要 消除 扩散 过 程 的 一 个 
步骤 ， 而 不 是 一 直 返 回 到 一 个 干净 的 数据 点 。 这 解决 了 去 噪 自 编码 器 的 普通 重建 对 
数 似 然 目 标 中 存在 的 以 下 两 难 问题 : 小 噪声 的 情况 下 学 习 者 只 能 看 到 数据 点 附近 的 
配置 ， 而 在 大 噪声 的 情况 下 ， 去 噪 自 编码 需 被 要 求 做 几乎 不 可 能 的 工作 〈 因 为 去 品 
分 布 是 高 度 复杂 和 多 峰值 的 )。 利 用 扩散 反 演 目标 ， 学 习 者 可 以 更 精确 地 学 习 数 据点 
周围 的 密度 形状 ， 以 及 去 除 可 能 在 远离 数据 点 处 出 现 的 假 性 模式 。 

样本 生成 的 另 一 种 方法 是 近似 贝 叶 斯 计算 (approximate Bayesian computation， 
ABC ) 框架 (Rubin et o, 1984)。 在 这 种 方法 中 ， 样 本 被 拒绝 或 修改 以 使 样本 选 定 
函数 的 抢 匹 配 期 望 分 布 的 那些 矩 。 虽 然 这 个 想法 与 矩 匹配 一 样 使 用 样本 的 和 矩 ， 但 它 
不 同 于 抢 匹 配 ， 因 为 它 修 改 样本 本 身 ， 而 不 是 训练 模型 来 自动 发 出 具有 正确 矩 的 样 
本 。Bachman and Precup (2015) 展示 了 如 何在 深度 学 习 的 背景 下 使 用 ABC 中 的 想 
法 ， 即 使 用 ABC 来 塑造 GSN 的 MOCMC 轨迹 。 


我 们 期 待 更 多 其 他 等 竺 发现 的 生成 式 建 模 方法 。 


























20.14 评估 生成 模型 


研究 生成 模型 的 研究 者 通常 需要 将 一 个 生成 模型 与 另 一 个 生成 模型 比较 ， 通 常 
是 为 了 证 明 新 发 明 的 生成 模型 比 之 前 存在 的 模型 更 能 捕获 一 些 分 布 。 

这 可 能 是 一 个 困难 且 微 妙 的 任务 。 通 常 ， 我 们 不 能 实际 评估 模型 下 数据 的 对 数 
概率 ， 但 仅 可 以 评估 一 个 近似 。 在 这 些 情况 下 ， 重 要 的 是 思考 和 沟通 清楚 正在 测量 
什么 。 例 如 ， 假 设 我 们 可 以 评估 模型 A 对 数 似 然 的 随机 估计 和 模型 B 对 数 似 然 的 
确定 性 下 界 。 如 果 模 型 A 得 分 高 于 模型 B， 哪 个 更 好 ? 如 果 我 们 关心 确定 哪个 模型 
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具有 分 布 更 好 的 内 部 表示 ， 我 们 实际 上 不 能 说 哪个 更 好 ， 除 非 我 们 有 一 些 方法 来 确 
定 模 型 B 的 边界 有 多 松 。 然 而 ， 如 果 我 们 关心 在 实践 中 该 模型 能 用 得 多 好 ， 例 如 执 
行 异 常 检 测 ， 则 基于 特定 于 感 兴趣 的 实际 任务 的 准则 ， 可 以 公平 地 说 模型 是 更 好 的 ， 
例如 基于 排名 测试 样 例 和 排名 标准 ， 如 精度 和 召回 率 。 

评估 生成 模型 的 另 一 个 微妙 之 处 是 ， 评 估 指 标 往 往 是 自身 困难 的 研究 问题 。 可 
能 很 难 确定 模型 是 否 被 公平 比较 。 例 如 ， 假 设 我 们 使 用 AIS 来 估计 log 2 以 便 为 我 
们 刚刚 发 明 的 新 模型 计算 log ji(z) -log Z。AIS 计算 经 济 的 实现 可 能 无 法 找到 模型 
分 布 的 几 种 模式 并 低估 3， 这 将 导致 我 们 高 估 logp(z)j。 因 此 可 能 难以 判断 高 似 然 佑 
计 是 否 是 良好 模型 或 不 好 的 AIS 实现 导致 的 结果 。 

机 器 学 习 的 其 他 领域 通常 允许 在 数据 预 处 理 中 有 一 些 变化 。 例 如 ， 当 比较 对 象 
识别 算法 的 准确 性 时 ， 通 常 可 接受 的 是 对 每 种 算法 略微 不 同 地 预 处 理 输 入 岁 像 ( 基 
于 每 种 算法 具有 何 种 输入 要 求 )。 而 因为 预 处 理 的 变化 ， 会 导致 生成 式 建 模 的 不 同 ， 
甚至 非常 小 和 微妙 的 变化 也 是 完全 不 可 接受 的 。 对 输入 数据 的 任何 更 改 都 会 改变 要 
捕获 的 分 布 ， 并 从 根本 上 改变 任务 。 例 如 ， 将 输入 乘 以 0.1 将 人 为 地 将 概率 增加 10 
售 。 

预 处 理 的 问题 通常 在 基于 MNIST 数据 集 上 的 生成 模型 产生 ，MNIST 数据 集 是 
非常 受 欢 迎 的 生成 式 建 模 基 准 之 一 。MNIST 由 灰 度 图 像 组 成 。 一 些 模型 将 MNIST 
图 像 视 为 实 向 量 空间 中 的 点 ， 而 其 他 模型 将 其 视 为 二 值 。 还 有 一 些 将 灰 度 值 视 为 二 
值 样本 的 概率 。 我 们 必须 将 实 值 模型 仅 与 其 他 实 值 模 型 比较 ， 二 值 模型 仅 与 其 他 二 
值 模型 进行 比较 。 和 否则 , 测量 的 似 然 性 不 在 相同 的 空间 。 对 于 二 值 模型 ， 对 数 似 然 可 
以 最 多 为 零 ， 而 对 于 实 值 模 型 ， 它 可 以 是 任意 高 的 ， 因 为 它 是 关于 密度 的 测度 。 在 
二 值 模型 中 ， 比 较 使 用 完全 相同 的 二 值 化 模型 是 重要 的 。 例 如 ， 我 们 可 以 将 0.5 设 
为 国 值 后 ， 将 灰 度 像素 二 值 化 为 0 或 1， 或 者 通过 由 灰 度 像素 强度 给 出 样本 为 1 的 
概率 来 采 一 个 随机 样本 。 如 果 我 们 使 用 随机 二 值 化 ， 我 们 可 能 将 整个 数据 集 二 值 化 
一 次 ， 或 者 我 们 可 能 为 每 个 训练 步 又 采 不 同 的 随机 样 例 ， 然 后 采 多 个 样本 进行 评估 。 
这 三 个 方案 中 的 每 一 个 都 会 产生 极 不 相同 的 似 然 数 ， 并 且 当 比较 不 同 的 模型 时 ， 两 
个 模型 使 用 相同 的 二 值 化 方案 来 训练 和 评估 是 重要 的 。 事 实 上 ， 应 用 单个 随机 二 值 
化 步骤 的 研究 者 共享 包含 随机 二 值 化 结果 的 文件 ， 使 得 基于 二 值 化 步 又 的 不 同 输出 
的 结果 没有 差别 。 

因为 从 数据 分 布 生成 真实 样本 是 生成 模型 的 目标 之 一 ， 所 以 实践 者 通常 通过 视 
党 检查 样本 来 评估 生成 模型 。 在 最 好 的 情况 下 ， 这 不 是 由 研究 人 员 本 身 ， 而 是 由 不 
知道 样品 来 源 的 实验 受 试 者 完成 (Denton et al., 2015)。 不 幸 的 是 ， 非 常 差 的 概率 
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模型 可 能 会 产生 非常 好 的 样本 。 验 证 模型 是 否 仅 复 制 一 些 训练 示例 的 常见 做 法 如 
图 16.1 所 示 。 该 想法 是 根据 在 z 空间 中 的 欧 儿 里 得 距离 ， 为 一 些 生成 的 样本 显示 它 
们 在 训练 集中 的 最 近邻 。 此 测试 旨 在 检测 模型 过 拟 合 训练 集 并 仅 再 现 训练 实例 的 情 
况 。 甚 至 可 能 同时 欠 拟 合 和 过 拟 合 ， 但 仍然 能 产生 单独 看 起 来 好 的 样本 。 想 象 一 下 ， 
生成 模型 用 狗 和 猫 的 图 像 训 练 时 ， 但 只 是 简单 地 学 习 来 重 现 狗 的 训练 图 像 。 这 样 的 
模型 明显 过 拟 合 ， 因 为 它 不 能 产生 不 在 训练 集中 的 图 像 ， 但 是 它 也 欠 拟 合 ， 因 为 它 
不 给 猫 的 训练 图 像 分 配 概率 。 然 而 ， 人 类 观察 者 将 判断 狗 的 每 个 个 体 图 像 都 是 高 质 
量 的 。 在 这 个 简单 的 例子 中 ， 对 于 能 够 检查 许多 样本 的 人 类 观察 者 来 说 ， 确 定 猫 的 
不 存在 是 容易 的 。 在 更 实际 的 设 定 中 ,在 具有 数 万 个 模式 的 数据 上 训练 后 的 生成 模 
型 可 以 忽略 少数 模式 ， 并 且 人 类 观察 者 不 能 容易 地 检查 或 记 住 足够 的 图 像 以 检测 丢 
失 的 变化 。 

由 于 样本 的 视觉 质量 不 是 可 靠 的 标准 ， 所 以 当 计算 可 行 时 ， 我 们 通常 还 评估 模 
型 分 配给 测试 数据 的 对 数 似 然 。 不 幸 的 是 ， 在 某 些 情况 下 ， 似 然 性 似乎 不 可 能 测量 
我 们 真正 关心 的 模型 的 任何 属性 。 例 如 ，MNIST 的 实 值 模型 可 以 将 任意 低 的 方差 
分 配给 从 不 改变 的 背景 像素 ， 获 得 任意 高 的 似 然 。 即 使 这 不 是 一 个 非常 有 用 的 事情 ， 
检测 这 些 带 量 特征 的 模型 和 算法 可 以 获得 无 限 的 奖励 。 实 现 接近 负 无 穷 代 价 的 可 能 
性 存在 于 任何 实 值 的 最 大 似 然 问 题 中 ， 但 是 对 于 MNIST 的 生成 模型 问题 尤为 严重 ， 
因为 许多 输出 值 是 不 需要 预测 的 。 这 强烈 地 表明 需要 开发 评估 生成 模型 的 其 他 方法 。 

Theis et ol. (2015) 回顾 了 评估 生成 模型 所 涉及 的 许多 问题 ， 包 括 上 述 的 许多 想 
法 。 他 们 强调 了 生成 模型 有 许多 不 同 的 用 途 ， 并 且 指 标的 选择 必须 与 模型 的 预期 用 
途 相 匹配 。 例 如 ， 一 些 生成 模型 更 好 地 为 大 多 数 真 实 的 点 分 配 高 概率 ， 而 其 他 生成 
模型 擅长 于 不 将 高 概率 分 配给 不 真实 的 点 。 这 些 差异 可 能 源 于 生成 模型 是 设计 为 最 
小 化 Dr(paata||pmoael) 还 是 DPKr(pmoaslllpaata)， 如 图 3.6 所 示 。 不 笠 的 是 ， 即 使 我 
们 将 每 个 指标 的 使 用 限制 在 最 适合 的 任务 上 ， 目 前 使 用 的 所 有 指标 仍 存在 严重 的 缺 
陷 。 因 此 ， 生 成 式 建 模 中 最 重要 的 研究 课题 之 一 不 仅仅 是 如 何 提 升 生成 模型 ， 事 实 
上 还 包括 了 设计 新 的 技术 来 衔 量 我 们 的 进步 。 
























































20.15 “结论 


为 了 让 模型 理解 表示 在 给 定 训 练 数据 中 的 大 千 世 界 ， 训 练 具有 隐藏 单元 的 生成 
模型 是 一 种 有 力 方 法 。 通 过 学 习 模型 pmoasa(z) 和 表示 pmoasi( 疡 | 四 ， 生 成 模型 可 以 
解答 z 输入 变量 之 间 关 系 的 许多 推断 问题 ， 并 且 可 以 在 层次 的 不 同 层 对 天 求 期 望 来 
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提供 表示 z 的 许多 不 同方 式 。 生 成 模型 承诺 为 AI 系统 提供 它们 需要 理解 的 、 所 有 
不 同 直观 概念 的 框架 ， 让 它们 有 能 力 在 面 对 不 确定 性 的 情况 下 推理 这 些 概念 。 我 们 
希望 我 们 的 读者 能 够 找到 增强 这 些 方法 的 新 途径 ， 并 继续 探究 学 习 和 智能 背后 原理 
的 旅程 。 














参考 文献 


-1). JAZZR. 618, 649 

-1a). Icml08. Im TCM 08. ACM. 649, 674 
-1b). Icml11. In 7CWT 721. 628, 634 
-1c).IcmlD13. In TCM 了 T3. 635,， 660 


-1). International conference on learning representations 2014. In 7C7ZR2014. 661, 675 





-1). Nips'13. In NT7P926. NIPS Foundation. 629, 635 


Abadi，M.，Agarwal，A.，Barham，P.，Brevdo, 卫 .，Chen，2Z.，Citro，C.，Corrado，G. S$.，Davis， 
A., Dean, J.,,， Devin，M.，Ghemawat, 9.,，Goodfellow, I,， Harp，A.,，Irving，G.，Isard，M.，Jia， 
Y., Jozefowicz, R., Kaiser, 工 ., Kudlur，M.，Levenberg,，J.，Man6e,，D.，Monga，R.，Moore，8.， 
Murray, D.，Olah,，C., Schuster, M.，Shlens, J.，Steiner，B., Sutskever, [.，Talwar, 天.， Tucker， 
了 P.，Vanhoucke，V.，Vasudevan，V.，Vi6gas, 上 .，Vinyals，O.，Warden，P.，Wattenberg，ML.， 
Wicke，M.，Yu，Y.，and Zheng,，X. (2015).，TensorFlow: Large-scale machine learning on 


heterogeneous Systems. Software available from tensorflow.org. 24, 183,， 380 


Ackley D. 也 ,Hinton，G. 卫 ., and Sejnowski, 工 . J. (1985). A learning algorithm for Boltzmann 
Iachines， Coomitiuve 9cyemnce, 9, 147-169. 486,，559 


Alain, G. and Bengio, Y. (2013). What regularized auto-encoders learn from the data generating 
distribution. In 7CZR22013，arXyu:1211.4246. 433, 439, 445 


Alain，G.，Bengio，Y.，Yao, 工 .， Eric ThibodeauLaufer，Yosinski，J.，and Vincent，P. (2015). 
GSNS: Generative stochastic networks. arXiv:1503.05571. 436, 607 


Anderson, 也 . (1935). The Irises of the Gasp6 Peninsula. Bulietin of 万 e 4mericam 71717515 9ociet 妈 ， 
59,， 2-5. 18 


615 


616 参考 文献 


Ba, J., Mnih, V., and Kavukcuoglu, K. (2014). Multiple object recognition with visual attention. 
QT7X1uU:1412.7755. 591 


Bachman，P. and Precup，D. (2015). Variational generative stochastic networks with collabo- 
rative Shaping. In Proceeqdzmgs oj the 3217pd 1mterma 帮 oa Comjerence om Machz7ne 了 ea7727100， 
TCM 2015 7W1e，Pmyramce，6-11 Ju 2015,， pages 1964-1972. 611 


Bacon, P.- 工 .，Bengio, 下 ., Pineau, J.，and Precup, D. (2015). Conditional computation in neu- 
Tal networks Using a decision-theoretic approach， In 27d Mulidyscipli7aary Comjeremce o7 
Reizmjorcement Pearmnzng ad Decisiom Making (RDLDM 2015). 383 


Bagnell JJ A. and Bradley D. M. (2009). Diferentiable sparse coding. In NI7P5?2009,， pages 
113-120. 425 


Bahdanau, D., Cho, KK., and Bengio, Y. (2015). Neural machine translation by jointly learning 
to align and translate. In 7TCZR2015 arXim:1409.0473. 23,， 89, 339, 356,，358,，395,， 404, 405 


Bahl, 工 . R.，Brown，P.，de Souza，P. V.，and Mercer，R. 工 . (1987).， Speech recognition with 
continuous-parameter hidden Markov models.， Computer，5peech and Zam0ua9ge， 2，219-234. 
390 


Baldi, P. and Hornik, 天 . (1989). Neural networks and Principal component analysis: Learning 


位 om examples without local minima， Newral Netuorks, 2，53-58. 245 


Baldi，P.，Brunak, S.，Frasconi, P., Soda，G., and Pollastri，G. (1999). Exploiting the past and 
the future in protein secondary Structure prediction. 已 ;ozmjformatics，15(11),，937-946. 337 


Baldi, P., Sadowski, P., and Whiteson, D. (2014). Searching for exotic particles in high-energy 


Physics with deep learning， Nature comz77U172tca 友 0725，5. 24 


Ballard, D. 互 .,, Hinton,G. 卫 ., and Sejnowski, 工 . J. (1983). Parallel vision computation. Nature. 
385 


Barlow, 互 . B. (1989). Unsupervised learning. Neuwral Computatiiom,， 1, 295-311. 128 


Barron, A. 卫 . (1993). Universal approximation bounds for superpositions of a sigmoidal function. 
了 EPE Trans. om 1mnjormatiom THPeory， 39, 930-945. 172 


Bartholomew, D. J. (1987). Patent variable moaels amd 如 ctor ama1ys;s. Oxford University Press. 
418 


Basilevsky, A. (1994). Statistical Factor 4malysis and Related Metbods: Theory and 4pplicatioms. 
Wiley. 418 


参考 文献 617 


Bastien, FE., Lamblin，P., Pascanu, R.，Bergstra, J.,，Goodfellow, [I., Bergeron，A.， Bouchard，N,， 
Warde-Farley, D., and Bengio, Y. (2012a). Theano: new features and speed improvements. 
Submited to the Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop， 
http://www.iro.umontreal.ca/ lisa/publications2/index.php/publications/show/551.， 23，73， 
380 


Bastien, 上 .， Lamblin，P.，Pascanu, R.，Bergstra,， J.,，Goodfellow, [I. J.,，Bergeron， A.，Bouchard， 
N., and Bengio, Y. (2012b). Theano: new features and speed improvements. Deep Learning 
and Unsupervised Feature Learning NIPS 2012 VWorkshop. 182，191 


Basu，S. and Christensen，J. (2013). Teaching _ classification boundaries to humans. In 
444772013. 280 


Baxter，J. (1995)，Learning internal representations， In Proceeqdimngs of 雪 e 8 雪 Jpternaiomal 
Comjerence om Computatiiomal Pearnig Theory (CO7T 95) pages 311-320, Santa Cruz，Cal- 
jifornia. ACM Press. 211 


Bayer,，J. and Osendorfer，C. (2014).，Learning stochastic recurrent networks，47rXiu e-Drzmts. 
228 


Becker，S$. and Hinton，G. (1992)，A self-organizing neural network that discovers Surfaces in 
Iandom-dot stereograms， Nature, 355, 161-163. 462 


Behnke,S. (2001). Learning iterative image reconstruction in the neural abstraction pyramid. 
11 寺 J Computatiomal 7ntelligence and 4pplications, 1(4)，427-438. 440 


Beiu V., Quintana, J. M., and Avedillo, M. J. (2003). VLSI implementations of threshold logic-a 
comprehensive survey.， Neural Vetauorks，1 瑟 PTyransactions on， 14(5),，1217-1243. 384 


Belkin，M. and Niyogi, P. (2002). Laplacian eigenmaps and spectral techniques for embedding 
and clustering. Im 工 . Dietterich，S. Becker, and 2. Ghahramani， editors，4aduamces 记 Neuyral 
Jmjformatiom Processing 95ystems 14 (NIPS01) Cambridge, MA. MIT Press. 210 


Belkin，M. and Niyogi, P. (2003a). Laplacian eigenmaps for dimensionality reduction and data 
representation. Neural Computaton, 15(6)，1373-1396. 443 


Belkin, M. and Niyogi, P. (2003b). Using manifold structure for partially labeled classification. In 
3. Becker, S. Thrun, and 开 . Obermayer, editors,， 4duamces 记 VWeural 1mjformatiom Processz70 
9ystem05 15 (MIP5702) Cambridge, MA. MIT Press. 141 


Bengio, 卫 ., Bacon, P.-L., Pineau, J., and Precup, D. (2015a). Conditional computation in neural 
Detworks for faster models. arXiv:1511.06297. 383 


618 参考 文献 


Bengio, $S. and Bengio, Y. (2000a). Taking on the curse of dimensionality in joint distributions 
Using neural networks. 7 玉 有 Transacio70s om Veral Netuor6s，special 15sUe om _ Data Mi709 
amd K7owledge Discovery，11(3)，550-557. 603 


Bengio,，S.,，Vinyals，O.，Jaitly，N.，and Shazeer，N. (2015b). Scheduled sampling for sequence 


prediction with recurrent neural networks. Technical report,，arXiv:1506.03099. 327 


Bengio，Y. (1991)，4r 友 Peial Neural Netuorks amd 态 eir 4pplication to Sequence 尺 ecognitiom. 
Ph.D. thesis, McGill University, (Computer Science), Montreal，Canada. 347 


Bengio，Y. (2000).， Gradient-based optimization of hyperparameters. Veural Compzutatiom， 
12(8),，1889-1900. 370 


Bengio, Y. (2002). Nevw distributed probabilistic language models. Technical Report 1215, Dept. 
IRO,，Universite de Montrkal. 397 


Bengio, Y. (2009). Zearmnimng deep architectures Jor 47 Now Publishers. 174, 531 


Bengio, Y. (2013). Deep learning of representations: looking forward. In Statistical Zamguage a72d 
Deec 几 Process11g, Volume 7978 of Pectuye Notes 已 Comzputer 9ciemce, pages 1-37. Springer， 
also in arXiv at http://arxiv.org/abs/1305.0445. 382 


Bengio，Y. (2015). Early inference in energy-based models approximates back-propagation. 
Technical Report arXiv:1510.02777,，Universite de Montreal. 560 


Bengio,，Y. and Bengio,，S. (2000b).， Modeling high-dimensional discrete data with multi-layer 
neural networks. In NI7P95 12, pages 400-406. MIT Press. 602, 603,， 604, 606 


Bengio, Y. and Delalleau, O. (2009). Justifying and generalizing contrastive divergence， Neuwra/! 
Computatom, 21(6), 1601-1621. 438, 520 


Bengio，Y. and Grandvalet, Y. (2004)， No unbiased estimator of the variance of k-fold cross- 
validation. In JML ( 1)，pages 1089-1105. 107 


Bengio，Y. and LeCun, Y. (2007a).，Scaling learning algorithms towards AI，In 7aorge 9cale 
开 erTel Machpimnes. 17 


Bengio，Y. and LeCun，Y. (2007b)，Scaling learning algorithms towards AI，、Im 工 . Bottou， 
O. Chapelle, D. DeCoste, and J. Weston,， editors，Zayrge 9cale Kermel Macjhimes. MII Press. 
17 


Bengio, Y. and Monperrus, M. (2005). Non-local manifold tangent learning. In 工 . Saul, Y. Weiss， 
and 工 . Bottou，editors，4aduamnces 纪 Neural 有 Jormatiom Processing 9ystems 17 (VIP57204)， 
pasges 129-136. MIT Press. 138, 444 


参考 文献 619 


Bengio, Y. and Sknkcal, J.-S. (2003). Quick training of probabilistic neural nets by importance 
sampling. In Proceedimngs of 4797479 2003. 400 


Bengio, Y. and Sknkcal, J.-S. (2008). Adaptive importance sampling to accelerate training of a 
neural probabilistic ljanguage model. 7 瑟 PP Trans. Neural Vetuuorks, 19(4)，713-722. 400 


Bengio, Y., De Mori, R., Flammia，G.，and Kompe, 人. (1991). Phonetically motivated acoustic 
Parameters for continuous Speech recognition using artificial neural networks. In Proceeqym9s 
of Euroo9peech 291. 21, 390 


Bengio, Y., De Mori, R., Flammia, G., and Kompe, R. (1992). Neural network-Gaussian mixture 
hybrid for speech recognition or density estimation.，， In NIP9 4，pages 175-182.， Morgan 
天 aufmann. 390 


Bengio, Y., Frasconi, P., and Simard, P. (1993). The problem of learning long-term dependencies 
in recurrent networks，JIDn 7 五 尼 BE 17mpternatiomal Comjerence om Veuwral VetuuorHs, pages 1183-- 
1195, San Francisco. IEEE Press. (invited paper). 344 


Bengio, Y., Simard, P., and Frasconi, P. (1994a). Learning long-term dependencies with gradient 
descent is dij 生 cult.， 7 瑟 了 PE TVNeuwral Netls. 16 


Bengio, Y., Simard, P., and Frasconi, P. (1994b). Learning long-term dependencies with gradient 
descent is difcult. 7 成 PP 7Tyansactomns om Neural Netauorks, 5(2),，157-166. 343, 344,， 345 





Bengio, Y., Simard, P., and Frasconi, P. (1994c). Learning long-term dependencies with gradient 
descent is dij 伍 cult，7 五 玉 P 7Tyamsac 好 oms om Neural Vetuorjs, 5(2),， 157-166. 351 





Bengio, Y., Latendresse, 9., and Dugas, C. (1999). Gradient-based learning of hyper-parameters. 


In Zear7i7g Co7mjeremce. 370 


Bengio，Y.，Ducharme,，R.，and Vincent，P. (2001la)，A neural probabijlistic ljanguage model. 
In 工 . Leen, 工 . Dietterich, and V. Tresp, editors，4duamces 记 Veural 1mjorma 太 om Processi720g 
9ystemls 13 (NIP59700) pages 933-938. MIT Press. 16 


Bengio, Y., Ducharme, R., and Vincent, P. (2001b). A neural probabilistic language model. In 
工 . 天 . Leen, 工 . G. Dietterich，and V. Tresp, editors，N7P5?2000, pages 932-938. MIT Press. 
380, 394, 396, 402, 406, 410 


Bengio, Y., Ducharme, R., Vincent, P., and Jauvin，C. (2003). A_ neural probabilistic ljanguage 
model. .AMM7R, 3, 1137-1155. 396,， 402 


Bengio, Y., Delalleau, O., and Le Roux, N. (2006a). The curse of highly variable functions for 
local kernel machines. In NI7P972005. 137 


620 参考 文献 


Bengio, Y.,，Larochelle, 百 ., and Vincent，P. (2006b). Non-local manifold Parzen windows.， In 
NT1IP95?2005. MIT Press. 138, 444 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, 互 . (2007a). Greedy layer-wise training of 
deep networks. In N7P9522006. 13,，276 


Bengio, Y.，Lamblin，P.，Popovici，D.，and Larochelle, 互 . (2007b).，Greedy layer-wise training 
of deep networks，In B. Scholkopf，J. Platt，and 工 . Hoffman，editors，4aduvamces 纪 Neuyral 
JTJmjformatiom Processing 95ystems 19 (NIPS06) pages 153-160. MIT Press. 173 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, 吾 . (2007c). Greedy layer-wise training of 
deep networks. In 4duw. Neuwyral 7/ Proc. 9Vs5. 19, pages 153-160. 275 


Bengio, Y.，Lamblin，P.，Popovici，D.,， and Larochelle, 互 . (2007d).，Greedy layer-wise training 
of deep networks. In NI7P95 19, pages 153-160. MIT Press. 276, 451，452 


Bengio，Y.，Louradour，J.，Collobert，R.，and Weston，J. (2009).， Curriculum learning， JI 
TCM1 09. ACM. 279 


Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, $. (2013a). Better mixing via deep representa- 
tions. In 7CW 20713. 514 


Bengio, Y.,Leonard, N., and Courville, A. (2013b). Estimating or propagating gradients through 
stochastic neurons for conditional computation. arXiv:1308.3432. 382, 383，588, 590 


Bengio, Y., Yao, 工 , Alain, G., and Vincent, P. (2013c). Generalized denoising auto-encoders as 
generative models. In NIP95?2013. 433,， 607, 608 


Bengio，Y.，Courville，A.，and Vincent，P. (2013d).，Representation learning: A review and 
new perspectives. Patterm 4malysis and Machine Jptelligence， 7FP Tansactions om 35(8)， 
1798-1828. 473 


Bengio, Y., Thibodeau-Laufer, 也., Alain, G., and Yosinski, J. (2014). Deep generative stochastic 
Detworks trainable by backprop. In TCM 2014. 607, 608, 609, 610 


Bennett, C. (1976). 卫生 cient estimation of free energy diferences from Monte Carlo data. .Jourmal 
of Comzputatiomal Physics, 22(2)，245-268. 536 


Bennett, J. and Lanning, S. (2007). The NetHix prize. 408 


Berger, A. 工 ., Della Pietra, V. J., and Della Pietra, $9. A. (1996). A maximum entropy approach 


to natural ljanguage Processing. ComzpDutatiomal 了 119U15 友 cs， 22,，39-71. 403 


Berglund, M. and Raiko, 工 . (2013). Stochastic gradient estimate variance in contrastive diver- 


gence and persistent contrastive divergence. CoRR, abs/1312.6002. 523 


参考 文献 621 


Bergstra, J. (2011). 7mpcorporating Complez Cells 各 to Neural Netuorks Jor Pattern Classi catiom. 
Ph.D. thesis，Universite de Montreal. 219 


Bergstra, J. and Bengio, Y. (2009). Slow, decorrelated features for pretraining complex cell-like 
Detworks. In NI7P95 22, pages 99-107. MIT Press. 421 


Bergstra，J. and Bengio，Y. (2011)，Random search for hyper-parameter optimization. 7Pe 
7eay7701729 玫 orkshnop, Fort Lauderdale, Florida. 369 


Bergstra，J. and Bengio，Y. (2012).， Random search for hyper-parameter optimization. .7. 
Machine Zear7i7009 Res.，13,， 281-305. 369, 370 


Bergstra，J.，Breuleux，O.，Bastien， 上 .，Lamblin，P.，Pascanu, 及 .，Desjardins，G.，Turian，J.,， 
Warde-Farley，D.，and Bengio，Y. (2010a)，Theano: a CPU and GPU math expression 
compiler， In Proceedings of 妇 e Py 纪 om jor Scientijic Computing Comnjerence (SciPW，Oral 
Presentation. 23，73 


Bergstra，J.，Breuleux，O.，Bastien， 上 .，Lamblin，P.，Pascanu, 及 .，Desjardins，G.，Turian，J.,， 
Warde-Farley，D.，and Bengio，Y. (2010b)，Theano: a CPU and GPU math expression 
compiler. In Proc. 5czPy. 182, 191 


Bergstra，J.，Breuleux，O.，Bastien， 上 .，Lamblin，P.，Pascanu, 及.，Desjardins，G.，Turian，J.,， 
Warde-Farley，D.，and Bengio，Y. (2010c)， Theano: a CPU and GPU math expression 
compiler. Pm Proceedings of 恕 e Py 妃 on jor Scientjc Computing Comnjerence (SciPy). 380 


Bergstra，J.，Bardenet，R.，Bengio, Y.，and 上 kgl，B. (2011).，Algorithms for hyper-parameter 
optimjization. In NIP5220171. 371 


Berkes, P. and Wiskott, 工 . (2005). Slow feature analysis yields a rich repertoire of complex cell 
prIoperties.， .Journal of Vision,，5(6),，579-602. 423 


Bertsekas, D. P. and Tsitsiklis, J. (1996). TVeuro-Dymnamic Programymizm0g. Athena Scientic. 93 
Besag, J. (1975). Statistical analysis of non-lattice data.， 77e 9tatisticya7，24(3)，179-195. 525 
Bishop，C. M. (1994). Mixture density networks. 163 


Bishop，C. M. (1995a). Regularization and complexity control in feed-forward networks， JIn 
Proceedimgs Ttermazomal Corjerence om 47 友 jcial Neural Netuorps TC4NN295，volume 1， 
page 141-148. 208, 215 


Bishop，C. M. (1995b)，Training with noise js equivalent to Tikhonov regularization. Veuwra/ 
Compautatomn, 7(1)，108-116. 208 


622 参考 文献 


Bishop，C. M. (2006). Pattern Recoogniiom and Machine Pearnin9g. Springer. 87,， 126 
Blum, A. 了. and Rivest, R. 工 . (1992). Training a 3-node neural network is NP-complete. 250 


Blumer，A.，Ehrenfeucht，A.,， Haussler, D., and Warmuth，M. K. (1989). Learnability and the 
Vapnik-Chervonenkis dimension. .Jovrnal of 妇 e 4CAM, 36(4),， 929---865. 100 


Bonnet，G. (1964).， Transformations des signaux alkatoires 8a travers les Systemes non linkaires 


sans meEmoire， 47m7zales des 7TElEcomn7mnazica 友 om5，19(9-10),， 203-220. 588 


Bordes，A.，Weston, J.,，Collobert, R., and Bengio, Y. (2011). Learning structured embeddings 
of knowledge bases. In 4447 20171. 411, 412 


Bordes, A., Glorot, X., Weston, J., and Bengio, Y. (2012). Joint learning of words and meaning 
representations for open-text Semantic parsing. 4757479?520712. 343, 411, 412 


Bordes，A.，Qjlorot，X.，Weston，J.,，and Bengio，Y. (2013a)，A semantic matching energy 
function for learning with multi-relational data. Machzmne Zearmi729: 9PDectal 15suUe om Lea7T007209 


Oe7m2a7t1ics. 411 


Bordes，A.，Usunier,， N.，Garcia-Duran，A.，Weston，J.,，and Yakhnenko，O. (2013b).，Trans- 
lating embeddings for modeling multi-relational data. In C. Burges, 直 . Bottou，M. Welling， 
2. Ghahramani, and 开 . Weinberger, editors, 4duamces 纪 Neural mmjormatiom Process1mg 9Vs5- 
tens 26, pages 2787-2795. Curran Associates, Inc. 411 


Bornschein, J. and Bengio, Y. (2015). Reweighted wake-sleep. In 7TCZR2015，arXiu:1406.2751 . 
592 


Bornschein，J.，Shabanian，S8.，Fischer，A.，and Bengio，Y. (2015). Training biqdirectional 
了 elmhpholtz machines. TIechnical report,，arXiv:1506.03877. 592 


Boser, B. 卫 ., Guyon, I M., and Vapnik, V. N. (1992). A training algorithm for optimal margin 
classifiers. In COZT ?92: Proceedimgs of 如 e 用 襄 amnmual Workspop om ComzDutatiomal /ea77i7209 
九 eory, pages 144-152, New York, NY,， USA. ACM. 16, 123 


Bottou, 工 . (1998). Online algorithms and stochastic approximations. In D. Saad, editor，Omlimne 
Zea7r727209 纪 Veral Vetuorfs. Cambridge University Press，Cambridge，UK. 253 


Bottou，LL. (2011). From machine jlearning to machine reasoning. Technical report， 
arXiv.1102.1808. 341, 342 


Bottou, 工 . (2015). Multilayer neural networks. Deep Learning Summer School. 374 


参考 文献 623 


Bottou, 工 . and Bousquet, DO. (2008a). The tradeoffs of large scale learning. Im J. Platt, D. Koller， 
Y. Singer，and 8$8. Roweis，editors，4auamces 记 Neural JJjorma 友 o7， Process?729 9Vyste70s 20 
(VIP5207) volume 20. MIT Press, Cambridge, MA. 241 


Bottou, 直 . and Bousquet，O. (2008b). The tradeoffs of large scale learning. In NI7P92008. 252 


Boulanger-Lewandowski，N.，Bengio,Y.，and Vincent，P. (2012)，Modeling temporal depen- 
dencies in high-dimensional sequences: Application to polyphonic music generation and tran- 
Scription. In TCM 了 2. 585 


Boureau, Y., Ponce, J., and LeCun, Y. (2010). A theoretical analysis of feature pooling in vision 


algorithms. In Proc. 1mternatiomal Comjerence om Macjhine learning (TCM TO0). 292 


Boureau, Y., Le Roux, N., Bach, 下 ., Ponce, J., and LeCun, Y. (2011). Ask the locals: multi-way 
local pooling for image recognition， In Proc. ypternatliomal Comjerence om Com2DuUter Yisio7 
(CCCTY21T1). IEEE. 293 


Bourlard, 也 . and Kamp,，Y. (1988)，Auto-association by mnultilayer perceptrons and singular 
value decomposition. Biological Cybermetics, 59, 291-294. 429 


Bourlard, 再 . and Wellekens，C. (1989). Speech pattern discrimination and multi-layered Per- 
ceptrons， Co7zDuter 9Dpeech ad La7guage,， 3,， 1-19. 390 


Boyd, S. and Vandenberghe, 工 . (2004). Conuez Optmzzatiom. Cambridge University Press, New 
York, NY,，USA. 82 


Brady，M. 工 .，Raghavan，R.，and Slawny,， J. (1989). Back-propagation fails to separate where 
Perceptrons Succeed. 7TPEPP Transactions om Circuits and 9ystems，36(5)，665-674. 243 


Brakel, P., Stroobandt,，D., and Schrauwen, B. (2013). Training energy-based models for time- 
series imnputation. .Jour7Tal oj Machpzmne Zear7070 尺 esearch，14, 2771-2797. 576,， 596 


Brand,， M. (2003a).， Charting a manifold. Im 9. Becker, S$. Thrun, and 开 . Obermayer，editors， 
4auamces 和 记 Neural 1mnjormatiom Processing 9ystems 15 (NIP502) pages 961-968. MIT Press. 
141 


Brand, M. (2003b). Charting a manifold. Im NT7P5?2002, pages 961-968. MIT Press. 443 
Breiman, 工 . (1994). Bagging predictors.， Machine Zearmni79， 24(2)，123-140. 220 


Breiman， 工 .，Friedman，J. 互 .，Olshen，R. A.，and Stone，C. J. (1984). Class 大 catiom ad 
Reoressiom Tyrees. Wadsworth International Group，Belmont,，CA. 125 


Bridqle, J. S. (1990). Alphanets: a recurrent “neural network architecture with a hidden Markov 
Imodel interpretation. 9peech Com7nzumica 龙 om 9(1)，83-92. 160 


624 参考 文献 


Briggman, 天., Denk，W.， Seung,，9.，Helmstaedter, M. N.，and Turaga, $. C. (2009).， Maximin 
afhnity learning of imnage segmentation. In NI7P972009, pages 1865-1873. 306 


Brown，P. 了.，Cocke, J.，Pietra, 9. A. D.,， Pietra, V. J. D.，Jelinek, FE., Lafferty，J. D.，Mercer， 
及 .Land Roossin, P. $. (1990). A statistical approach to machine translation. Commzputa 友 omal 
/2729uistics，16(2)，79-85. 18 


Brown, P. 了., Pietra, V. J. D., DeSouza, P. V., Lai, J. C., and Mercer, 及 . 工 . (1992). Class-based 
7T-gram Imodels of natural ljanguage. Comzputatiomal 了 79U15s 友 cs， 18,，467-479. 394 


Bryson，A. and Ho, Y. (1969). 4ppljiea optimzal comtrol: optirmtzzation，estimatiomn，amd comtrol. 
Blaisdell Pub. Co. 194 


Bryson，JT.，A. 卫 . and Denham，W. 了 上 . (1961).，A steepest-ascent method for solving optimum 
programming problems， Technical Report BR-1303，Raytheon Company，Missle and Space 
Division. 194 


Bucilug， C.,， Caruana, R., and Niculescu-Mizil, A. (2006). Model comPpression. In Proceeadings of 
太 e 12 坟 4CM 5171GKDD Ynternatiomal comijference om Kowledge discove7y ad data 703727109， 
pages 535-541. ACM. 381 


Burda, Y., Grosse, R., and Salakhutdinov, R. (2015). Imnportance weighted autoencoders. arXzv 
D7eDp7dTt arX1uU:1509.005719. 596 


Cai，M., Shi, Y., and Liu,， J. (2013). Deep maxout neural networks for speech recognition. Im 
4utomatic 9peech Recognitomn and Understanding (45RD) 2013 1 玉 PPE Torkshop on， pages 
291-296. IEEE. 167 


Carreira-Perp 赴 an，M. A. and Hinton，G. 卫 . (2005)，On contrastive divergence learning，J 
471974797?52005, pages 33-40. 520 


Caruana, 有 R. (1993). Multitask connectionist learning. In Proceedimngs of 雪 e 1993 Commectionzst 
Moaels 9uwm7mer 9chool pages 372-379. 210 


Cauchy，A. (1847)， Mkthode gknkrale pour la resolution de systemes d'6quations simultanekes. 


In Comzpte remdu qdes sEamces de acadeErmnie des sciemces, pages 536-538. 74,，194 


Cayton, 工 . (2005)， Algorithms for manifold learning.， Technical Report CS2008-0923，UCSD. 
141 


Chandola，V.，Banerjee，A.，and 上 Kumar，V. (2009). Anomaly detection: A survey， 4CMH 
co7DuUt9 SUrVeys (CSUR) 41(3)，15. 90 


参考 文献 625 


Chapelle, O., Weston, J.,, and Scholkopf, B. (2003). Cluster kernels for semi-supervised learning. 
In S. Becker, $. Thrun, and 下 . Obermayer, editors, 4duamces 纪 Neural JImjorma 友 om _ Process17209 
Vstems 15 (NI1P9502) pages 585-592, Cambridge, MA. MIT Press. 210 


Chapelle, O., Scholkopf, B., and Zien, A., editors (2006). 9erni-Superuised Pearnim9g. MIT Press， 
Cambridge， MA. 210, 462 


Chellapilla, 天., Puri, S$., and Simard,P. (2006). High Performance Convolutional Neural Net- 
works for Document Processing， In Guy Lorette，editor，7emnth Jpterma 友 omal [orkspop o7 
了 omtiers 记 有 adw7itimg 尺 ecogmitio7 La Baule (France). Universit6 de Rennes 1，Suvisoft. 
http://www.suvisoft.com. 20, 21, 379 


Chen，B.，Ting，J.-A.，Marlin，B. M.，and de Freitas，N. (2010)，Deep learning of invariant 
spatio-temporal features from video， NIPS*2010 Deep Learning and Unsupervised Feature 
Learning VVorkshop. 307 


Chen, $S.F. and Goodman, J. 工 . (1999). An empirical study of smoothing techniques for language 
modeling. Computer，9peech and Lamguage, 13(4)，359-393. 393,，394, 402 


Chen, 工 , Du, Z., Sun, N.，Wang, J.,，Wu,， C., Chen, Y., and Temam, O. (2014a). DianNao: A 
small-footprint high-throughput accelerator for ubiquitous machine-learning. In Proceeqym9s 
of t 太 e 19 雪 Intermatomal co7jferemce om 47rchpitectural suUDDort for prog7ra7na7720129 1a729UQ9es a72d 
Operati729 Systemls， pages 269-284. ACM. 384 


Chen， 工 .，Li，M.，Li，Y.，Lin，M.，Wang，N.，Wang，M.，Xiao， 工 .，XuU，B.，Zhang，C.，and 
Zhang, 2Z. (2015). MXNet: A fHexible and e 重 cient machine learning library for heterogeneous 
distributed systems， arXu Drep7z0t arX7U:1512.01274 .23 


Chen, Y., Luo, 工 ., Liu, 39.， Zhang, 9., He, 工 ，Wang, J.,， Li 工 ，Chen, 工 .,， Xu, 2Z., Sun, N.，et alL. 
(2014b).， DaDianNao: A machine-learning supercomputer. In Miceroarcjitecture (MTCRO)， 
2014 AI 4nmaual TBPPELA4CM 17mternatiomal Symposium on, pages 609-622. IEEE. 384 


Chilimbi, 工 .,Suzue, Y.，Apacible, J.,,， and 上 Kalyanaraman, 天 . (2014). Project Adam: Building 
an e 重 cient and scalable deep learning training System， In 17 妃 VENITX 9V7mDposyu7T0 07 
Operating 9ystems Design amd 71mplementaton (OSD114) 381 


Cho, 天 .,， Raiko, 工 .and Jiin，A. (2010a). Parallel tempering is e 重 cient for learning restricted 
Boltzmann machines，JIn Proceedzmgs of 妃 e 1mpternatiomal Jotnt Comjferemce 0 Veuyral TVet- 
Worjs (IJCNN 2010), Barcelona, Spain. 514 


Cho, K.，Raiko, 工 .，and Jin，A. (2010b). Parajllel tempering is e 鱼 cient for learning restricted 
Boltzmann machines. In TV7CNMNMN220710. 524 


626 参考 文献 


Cho,， 开 .，Raiko，TI.，and lin，A. (2011).，Enhanced gradient and adaptive learning rate for 
training restricted Boltzmann machines. In TCM 20171, pages 105-112. 575 


Cho, 天 .，Van Merritnboer，B.，Giilcehre，G.，Bahdanau，D.，Bougares, 上 .，Schwenk， 瑟 .，and 
Bengio，Y. (2014a)，Learning phrase representations using RNN encoder-decoder for sta- 
tistical machine translation，， JIn Proceeqdzmgs of 妃 e 2014 Comjerence om PEmnDi7tcal Methods 
2 Vatural Lamguage Processing (EMN7LP) pages 1724-1734. Association for Computational 
Linguistics， 338 


Cho, KK., van Merrisenboer, B., Gulcehre, C., Bougares, 上 ., Schwenk, 再 ., and Bengio, Y. (2014b). 
Learning phrase representations using RNN encoder-decoder for statistical machine trans- 
lation， In Proceedings of 如 e 已 mpiricial Metbods 记 Natural Pamguage Processing (EMNZLP 
2014). 403 


Cho, 人 .，Van Merrienboer，B.，Bahdanau，D.，and Bengio，Y. (2014c)， On the properties of 
neural machine translation: Encoder-decoder approaches.， 47rXiu e-print 好 ,abs/1409.1259. 
351 


Choromanska，A.，Henaf，M.，Mathieu，M.，Arous，G. B.，and LeCun，Y. (2014)，The loss 


Surface of multilayer networks. 244, 245 


Chorowski，J.,，Bahdanau，D.，Cho, 上 ., and Bengio, Y. (2014).， End-to-end continuous speech 


recognition using attention-based recurrent NN: First results. arXiv:1412.1602. 392 


Christianson, 也 . (1992). Automatic Hessians by reverse accumulation. FMM4 Journal of _ Numerical 
47malysis，12(2)，135-150. 193 


Chrupala,G., Kadar，A., and Alishahi，A. (2015). Learning language through pictures， arXiv 
1506.03694. 351 


Chung, J.,, Gulcehre, C., Cho, KK., and Bengio, Y. (2014). Empirical evaluation of gated recurrent 
neural networks on sequence modeling. NIPS$'?2014 Deep Learning workshop, arXiv 1412.3555. 
351，392 


Chung，J，Gilcehre，G.，Cho, 开 .，and Bengio，Y. (2015a)，Gated feedback recurrent neural 
Detworks. In TCM 2 了 5. 351 


Chung, J., Kastner, 上 人., Dinh, 工 . ,Goel, 人 .，Courville, A., and Bengio, Y. (2015b). A recurrent 
latent variable model for sedquential data. In N7P95220715. 596 


Ciresan, D., Meier, U., Masci, J., and Schmidhuber, J. (2012). Multi-column deep neural network 
for trafc sign classification. Neuwral NetuorKs, 32, 333-338. 22,， 174 


参考 文献 627 


Ciresan，D. C.，Meier，U.，Gambardella, 工 . M., and Schmidhuber，J. (2010). Deep big simple 
neural nets for handwritten digit recognition， Weuyral Computatom，22, 1-14. 20, 21, 379 


Coates, A. and Ng, A.Y. (2011). The imnportance of encoding versus training with sparse coding 
and vector duantization. In 7CW 2011. 21,， 220, 425 


Coates，A.，Lee, 再.，and Ng，A. Y. (2011)，An analysis of single-layer networks in unsuper- 
Vised feature learning. In Proceedzmgs of e Tjirteen 胡 1ntermnaiomal Comjerence om 47 友 czal 
Tntel1igemce amd 9tatistics (4797479 20171) 310, 387 


Coates, A., Huval, B., Wang, 工 , Wu, D., Catanzaro, B., and Andrew, N. (2013). Deep learning 
with COTS 再 PC systems. In S. Dasgupta and D. McAjllester, editors，Proceeaq2mgs of 雪 e 30 专 
Tnternatiozal Comjerence om JWMacjhimne 7earning (TCMWMT-13) volume 28 (3), pages 1337-1345. 
JMLR Workshop and Conference Proceedings. 20, 21, 310, 381 


Cohen,，N.， Sharir，O.，and Shashua，A. (2015). On the expressive power of deep learning: A 
tensor analysis， arXiv:1509.05009. 472 


Collobert, R. (2004). Zarge Scale Machpine Zearnimg. Ph.D. thesis, Universit6 de Paris VI, LIP6. 
170 


Collobert, R. (2011). Deep learning for e 重 cient discriminative parsing. Im 47974757520171. 89， 
406 


Collobert，R. and Weston, J. (2008a)j. A unified architecture for natural language processing: 
Deep neural networks with multitask learning. In 7CW 2008. 401, 406 


Collobert，R. and Weston,，J. (2008b). A unified architecture for natural language processing: 
Deep neural networks with multitask learning. In 7CW 了 22008. 455 


Collobert，R.，Bengio，S.，and Bengio, Y. (2001).，A parallel mixture of SVMs for very large 
scale problems. Technical Report 12, IDIAP. 383 


Collobert, R.，Bengio, $., and Bengio, Y. (2002). Parallel mixture of SVM for very large scale 
Problem.，， Neuwyral ComzDuta 友 om 383 


Collobert, R., Weston, J.,, Bottou, 工 ., Karlen, M., Kavukcuoglu, 上., and Kuksa, P. (2011a). Nat- 
ural ljanguage processing (almost) 在 om scratch. THPe .Journal of Machine Fearnz7g 尺 esearc 几 ， 
12, 2493-2537. 279, 406, 455, 456 


Collobert, R., Kavukcuoglu, 上 人.,， and Farabet，C. (2011b). Torch7: A Matlab-like environment 
for machine learning. In B797earmn，NIP9 你 orkshop. 23, 182, 380 


628 参考 文献 


Comon，P. (1994). Independent component analysis - a new concept? .91gqmpal Processi7g，36， 
287-314. 419 


Cortes，C. and Vapnik，V. (1995). Support vector networks.， Macjpimne Zearni9g，20，273-297. 
16, 123 


Couprie, C., Farabet, C., Najman,L.,and LeCun, Y. (2013). Indoor semantic segmentation using 
depth information. In 17mpternatiomal Comjference om 了 earnimng 已 epresentations (7TC7R2013). 22， 
174 


Courbariaux, M., Bengio, Y., and David, J.-P. (2015). Low precision arithmetic for deep learning. 
In 4rziu:14712.7024，TCZLR20715 Torkshnop. 384 


Courville，A.，Bergstra,，J.,，and Bengio, Y. (2011a). Unsupervised models of images by spike- 
and-slab RBMS. Im TCM 220711. 477 


Courville，A.，Bergstra, J.,，and Bengio,Y. (2011b). Unsupervised models of images by spike- 
and-slab RBMSs. Im ICM ( 1b). 581 


Courville，A.，Desjardins，G.，Bergstra，J.，and Bengio,，Y. (2014)，The spike-and-slab RBM 
and extensions to discrete and sparse data distributions.， Patterm 47alysis ad Machzme 
1mptel1igemnce，7PBP Transactions om 36(9),， 1874-1887. 583 


Cover, 工 M. and Thomas, J. A. (2006). Elements of 7mjformaton 7Heory，2npad 已 qitiomn. Wiley- 


Interscience. 66 


Cox, D. and Pinto, N. (2011).， Beyond simple features: A large-scale feature search approach 
to unconstrained face recognition. In 4utomatic Face 多 Gesture Recogmito7m a72d TorFsjpops 
(CG 2011) 2011 TBPP 1nternational Comnjerence om pages 8-15. IEPEE. 310 


Cramekr, 了 再. (1946).， Mathematical met 妇 oqds of statistics. Princeton University Press. 118，252 


Crick, 下. 再 . C. and Mitchison，G. (1983). The function of dream sleep. Nature, 304,， 111-114. 
518 


Cybenko,，G. (1989). Approximation by superpositions of a sigmoidal function. Woathematics oF 
Comtrol，9797a1s，a7d 9Vste705s， 2 303-314. 171 


Dahl, G. 卫 ., Ranzato, M., Mohamed, A., and Hinton，G. 卫 . (2010). Phone recognition with the 
mean-covariance restricted Boltzmann machine. In 4auwamces 纪 Neural 1mjormatiom Process- 
z9 Systems (VIP9S) 22 


Dahl, G. 卫 ., Yu D., Deng, L., and Acero, A. (2012). Context-dependent pre-trained deep neural 
networks for large vocabulary speech recognition. 7BEEPB Transactioms om 4uaio，5peech，amd 
Zamguage Processing,， 20(1),， 33-42. 391 


参考 文献 629 


Dahl，G. 卫 .，Sainath,， 工 . N.，and Hinton，G. 卫 . (2013).，JImproving deep neural networks for 
LVCSR using rectifed linear units and dropout. In 7C4599P2013. 391 


Dahl，G. 卫 .，Jaitly， N.，and Salakhutdinov，R. (2014)，Multi-task neural networks for QSAR. 
predictions. arXiv:1406.1231. 24 


Dauphin，Y. and Bengio，Y. (2013).， Stochastic ratio matching of RBMSs for sparse high- 
dimensional inputs. In NIP ( 1). 528 


Dauphin，Y.，Glorot，X.，and Bengio，Y. (2011).， Large-scale learning of embeddings with 
Teconstruction Sampling. In 7CW 20171. 401 


Dauphin,Y., Pascanu, R., Gulcehre, C., Cho, KK., Ganguli, $S., and Bengio, Y. (2014). Identifying 
and attacking the saddle point problem in high-dimensional non-convex optimization， JIn 
NT1P52?2011. 244, 245 


Davis, A., Rubinstein，M.，Wadhwa,，N.，Mysore，G.，Durand, 了.，and Freeman，VW. 工 . (2014). 
The visual microphone: Passive recovery of sound from video. 4CAM 7Tyamnsacioms om Graphics 
(Proc. ST1GGR4P 万 ) 33(4)，79:1-79:10. 385 


Dayan, P. (1990). Reinforcement comparison. In Commectiomist Models: Proceeadings of 如 e 1990 
Commectiomist 9u7270er 9chool, San Mateo，CA. 590 


Dayan，P. and Hinton，G. 也 . (1996). Varieties of Helmholtz machine， Neural Vetuorfs, 9(8)， 
1385-1403. 592 


Dayan, P., Hinton，G. 卫 ., Neal, R. M., and Zemel, R. $. (1995). The Helmholtz machine， Newra/ 
co7mDuta 友 on， 7(5)，889-904. 592 


Dean, J., Corrado，G. ,Monga, R.，Chen, 下 ., Devin,， M., Le Q., Mao,，M.，Ranzato，M.，Senior， 
A., Tucker, P., Yang, KK., and Ng, A. Y. (2012). Large scale distributed deep networks.， JI 
NTIP9572012. 23, 381 


Dean, 工 . and Kanazawa, 氏 . (1989)，A model for reasoning about persistence and causation. 
Computatomal 7ntelligence, 5(3)，142-150. 566 


Deerwester, S$., Dumais, S. 工 ., Furnas,，G. W., Landauer, 工 . 人., and Harshman, R. (1990). In- 
dexing by latent semantic analysis， .Jouy7zal of 记 e 47merticam 9ociet 妈 Jor Jpjormatiom 9cyemce， 
41(6), 391-407. 406, 410 


Delalleau, O. and Bengio, Y. (2011). Shallow vs. deep sum-product networks. In NTP5S. 17, 472 


Deng, J.,, Dong, W., Socher, R., Li, 工 .-J.,Li, K., and Fei-Fei, 工 . (2009). ImageNet: A Large-Scale 
Hierarchical Inage Database. In CTYPR09. 18 


630 参考 文献 


Deng, J.,，Berg,，A. C., Li, KK., and Fei-Fei, 工 . (2010a). What does classifying more than 10;000 
image categories tell usy In _Proceeqzmgs of 妨 e 17 矶 Europeam Comjeremce om ComzDuUter V7s1o70: 
Part , ECCV710, pages 71-84, Berlin，Heidelberg. Springer-Verlag. 18 


Deng,L. and Yu, D. (2014). Deep learning - methods and applications. Foundations and Trends 
2 09197201 Process?9. 391 


Deng, L., Seltzer, M., Yu, D., Acero, A., Mohamed, A., and Hinton，G. (2010b). Binary coding 
of speech spectrograms using a deep auto-encoder. JIn 7mpterspeec 几 2010，Makuhari，Chiba， 


Japan. 22 


Denil, M., Bazzani, 工 ., Larochelle, 再 ., and de Freitas, N. (2012). Learning where to attend with 
deep architectures for image tracking. Neural Computation, 24(8),， 2151-2184. 313 


Denton, 下 ., Chintala, $., Szlam, A., and Fergus, R. (2015). Deep generative image models using 
a Laplacian pyrIamid of adversarial networks. VIP95. 599, 612 


Desjardins，G. and Bengio, Y. (2008). Empirical evaluation of convolutional RBMs for vision. 
Technical Report 1327, Departement d'Informatique et de Recherche Operationnelle，UniverT- 
site de Montreal. 583 


Desjardins，G.，Courville，A. C., Bengio, Y., Vincent,，P., and Delalleau，O. (2010). Tempered 
Markov chain Monte Carlo for training of restricted Boltzmann machines，In 7Zmternatomat 
Comjerence om 47 友 Jicial 1ntelligemce ad 9tatis 她 cs, Pages 145-152. 514，524 


Desjardins，G.，Courville，A.，and Bengio, Y. (2011).， On tracking the partition function， JIn 
NIP5?20711. 537 


Devlin，J.，Zbib,，R.，Huang，Z.，Lamar, 工 .，Schwartz，R.，and Makhoul，J. (2014)，Fast and 
robust neural network joint models for statistical machine translation. In Proc. 4C7 20717. 
403 


Devroye, 工 . (2013). Non-Vmizform Random Variate Generatiom. SpringerLink : Biicher. Springer 
New York. 593 


DiCarlo, J. J. (2013).， Mechanisms underlying visual object recognition: Humans vs. neurons 
vs. mmachines. NIPS Tutorial. 24， 312 


Dinh，L.，Krueger，D.，and Bengio，Y. (2014).，NICE: Non-linear independent components 
estimation. arXiv:1410.8516. 421 


Donahue,，J.，Hendricks,，L. A.，Guadarrama，9$.，Rohrbach，M.，Venugopalan，8.，Saenko, 下 ,， 
and Darrel, 工 . (2014). Long-term recurrent convolutional networks for visual recognition and 
description. arXiv:1411.4389. 90 


参考 文献 631 


Donoho, D. 工 . and Grimes，C. (2003). Hessian eigenmaps: new locally linear embedding tech- 
niques for high-dimensional data， Technical Report 2003-08，Dept. Statistics，Stanford Uni- 
versity.， 141,， 443 


Dosovitskiy，A.，Springenberg，J. 工 .，and Brox, 工 . (2015)，Learning to generate chairs with 
convolutional neural networks， In Proceedi7gs of 妇 e TBPP Comjerence om ComzDuUter Yisio 
amd Patterm Recogmitom， pages 1538-1546. 594, 601 


Doya, 民 . (1993). Bifurcations of recurrent neural networks in gradient descent learning.， 7 五 有 斑 
Tyra7sac 妨 018 0 IVeuyal Netuo7Ks, 1 75-80. 343,，345 


Dreyfus, $S. 卫 . (1962). The numerical solution of variational problems.， JJourmal of Matpema 友 cal 
4malysis amnd 4pplications, 5(1)， 30-45. 194 


Dreyfus, S. 卫 . (1973). The computational solution of optimal control problems with time lag. 
TBEPP 7Tyramsac 太 o7s om 4utomatic Comtrol 18(4)，383-385. 194 


Drucker, 了 再. and LeCun, Y. (1992).， Improving generalisation performance using double back- 
piIopagation. TBP Transactions om Veural Netuuorks, 3(6),，991-997. 233 


Duchi, J.,，Hazan, 下 ., and Singer, Y. (2011). Adaptive subgradient methods for online learning 


and Stochastic optimization. .Jowur7al oj Machimne Learmz129g 尺 eseaych. 261 


Dudik，M.,， Langford, J.,，and Li, 工 . (2011). Doubly robust policy evaluation and learning. In 
Proceedzgs of 妇 e 28 坝 1mternatiomal Comjerence om Machimne yearmnig, ICML ?11. 410 


Dugas, C., Bengio, Y., B6lisle, F., and Nadeau, C. (2001). Incorporating second-order functional 
knowledge for better option Pricing. Im 工 . Leen, 工 . Dietterich, and V. Tresp, editors,， 4duwamces 
2 Veural 17mjforma 太 om Processing 9ystems 13 (NIP500) pages 472-478. MIT Press. 61, 170 


Dziugaite，G. 人 ., Roy D. M., and Ghahramani, Z. (2015). Training generative neural networks 


via maximum mean discrepancy optimization. a7X?u DT7ep7int arXYu:1505.03906. 600 


卫 ] Hihi, S. and Bengio, Y. (1996). Hierarchical recurrent neural networks for long-term depen- 
dencies. In NI7P95 8. MIT Press. 340, 348 


卫 ]kahky，A. M.，Song, Y., and He, X. (2015). A mnulti-view deep learning approach for cross 
domain User modeling in recommendation Systems. In _ Proceeazgs of 妃 e 24 雪 有 termnaiomat 
Comjerence om 人 orld [ide [ffeb pages 278-288. 408 


了 Iman, J. 工 . (1993). Learning and development in neural networks: The importance of starting 
small，Coog7ijom， 48，781-799. 279 


632 参考 文献 


Erhan，D.，Manzagol, P.-A.,， Bengio, Y.，Bengio，$.，and Vincent，P. (2009). The di 重 culty of 
training deep architectures and the effect of unsupervised pre-training， In 4757475752009， 
pages 153-160. 174 


Erhan，D.，Bengio, Y.，Courville，A.，Manzagol P.，Vincent，P.，and Bengio,，S9. (2010)，Why 
does unsupervised pre-training help deep learningy .JJ Macjhzme Lear7i729 忆 es. 452,， 454,， 455， 
456 


Fahlman, S. 卫 ., Hinton，G. 卫 ., and Sejnowski, 工 . J. (1983). Massively parallel architectures for 
ATI: NETL, thistle, and Boltzmann machines. In Proceedizmgs of 如 e Natiiomal Comjerence om 
47 友 jcyal Ttelligence 444 太 83. 486,， 559 


Fang, 再 ., Gupta, 8., Iandola, FE.， Srivastava, 及 ., Deng, 工 .，Dollar,，P.，Gao, J.，He, X.，Mitche]]， 
M., Platt, J. C.,， Zitnick，C. 工 .， and Zweig, G. (2015). From captions to visual concepts and 
back. arXiv:1411.4952. 90 


Farabet, C., LeCun, Y., Kavukcuoglu, 上 .，Culurciello, 下 ., Martini, B.，Akselrod, P., and Talay， 
9. (2011)，Large-scale FEFPGA-based convolutional networks， In R. Bekkerman，M. Bilenko， 
and J. Langford, editors，Scalimg UD Machine Zearnim0: Parallel amd Distriputed 4Dpproaches. 
Cambridge University Press. 447 


Farabet，C.，Couprie，C.，Najman, 工 .， and LeCun，Y. (2013)，Learning hierarchical features 
for scene labeling. 7 有 EBP 7Tyansactions om _ Pattern 4malysis anad JWacjpimne Tteliigence, 35(8)， 
1915-1929. 22,，174,， 306 


Fei-Fei, 工 ，Fergus,，R.，and Perona，P. (2006).，One-shot learning of object categories， 7 五 太太 
7ya7zsac 友 o7s 07 Patterm 472a1ysis amd Machine Ttelligence, 28(4)，594-611. 459 


Finn，C.，Tan，X. Y.，Duan，Y.，Darrell， 工 .，Levine，S.，and Abbeel，P. (2015). Learning 
visual feature spaces for robotic manipulation with deep spatial autoencoders. a7XY?zu DreD7Z7t 
a7X1u:1509.061713. 23 


Fisher，R. A. (1936)，The use of multiple measurements in taxonomic problems， 47mmzals of 
五 ge7ics,， 7，179-188. 18,，92 


Foldi&k，P. (1989).， Adaptive network for optimal linear feature extraction.， In 7mternaomal 
Joint Comjerence om Neural Netuorks (UVJCNN), volume 1, pages 401-405，VWashington 1989. 
IEEE, New York. 421 


Franzius，M.，Sprekeler， 互 .，and Wiskott, 工 . (2007).， Slowness and sparseness lead to Place， 


head-direction，and spatial-view cells. 423 


参考 文献 633 


Franzius, M., Wilbert, N., and Wiskott, 工 . (2008). Invariant object recognition with slow feature 
analysis，JIn Proceeaqigs of 如 e 18 雪 Intermato7zal co7zjeremce om 47 友 jcyal Neuwral Netauo7Ks， 
Pa 7 ICANN :08, pages 961-970, Berlin, Heidelberg. Springer-Verlag. 423 


Erasconi, P., Gori, M., and Sperduti, A. (1997). On the e 重 cient classification of data structures 
by neural networks. In Proc. 71t. Jotnt Co om 47 训 czal 17nteligence. 341,， 342 


Erasconi, P., Gori, M., and Sperduti, A. (1998). A_ general framework for adaptive processing of 
data Structures. 7 五 有 PTyransacioms om Neural Netuuorks, 9(5), 768-786. 341, 342 


Ereund, Y. and Schapire, 及 . 卫 . (1996a). Experiments with a new boosting algorithm. In Macjpzmne 
了 ea770720: Proceedigs of THirteen 雪 Ttermatiomal Comjerenmnce，pages 148-156，USA. ACML. 
222 


Ereund，Y. and Schapire，R. 卫 . (1996b)，Game theory，on-line prediction and boosting， JI 
Proceedings of 雪 e Nin 雪 4772Ual Comjerence om Computatiomal Dearmz729g 7 九 eory,， pages 325-- 
332. 222 


Erey,， 也 . J. (1998)， Grapjical models jor machine Jearning and digital commaumiica 龙 om MIT 
Press. 602 


Erey，B. J.，Hinton，G. 卫 .，and Dayan，P. (1996).， Does the wake-sleep algorithm learn good 
density estimators? In D. Touretzky，M. Mozer，and M. Hasselmo，editors，4auvamces 妃 
Neural mmjormatiom Processing 9ystems 8 (NT1P9?95) pages 661-670. MIT Press，Cambridge， 
MA. 557 


Frobenius, G. (1908). Uber matrizen aus positiven elementen, s. 万 . Preuss. 4kiad. Tiss. Berlin， 


Cer7mza74.， 508 


Fukushima, 开 . (1975)，Cognitron: A self-organizing mujtilayered neural network.， Biologica/! 
CyWbermetics, 20, 121-136. 14,，195, 451 


Eukushima, 天 . (1980). Neocognitron: A self-organizing neural network model for a mechanism 
of Pattern recognition Unaftected by shift in position. Byolooical CVbernetics，36，193-202. 
14, 20, 21,，195, 313 


Gal, Y. and Ghahramani，Z. (2015).， 了 Bayesian convolutional neural networks with Bernoulli 


appProximate variational inference， arX?u prep7int arXYu:1500.02158. 227 


Gallinari，P.，LeCun，Y.，Thiria，$.，and Fogelman-Soulie，EF. (1987). Memoires associatives 
distribuees. In _Proceedigs of COGVTTTTV4 87, Paris, La Villette. 440 


634 参考 文献 


Garcia-Duran，A.，Bordes，A.，Usunier，N.，and Grandvalet，Y. (2015). Combining two 
and three-way embeddings models for link prediction iD knowledge bases， ay7Xz Drep7z7Lt 
a7XYU:1506.00999. 412 


Garofolo, J. S$., Lamel, 工 . 上., Fisher, W. M., Fiscus, J. G., and Pallett, D. $. (1993). Darpa timit 
acoustic-phonetic continous Speech corpus cd-rom. nist speech disc 1-1.1. N454 9377A[Recom 
Techmical 有 eport N, 93,， 27403. 390 


Garson，J. (1900).， The metric system of identification of criminals，as used in Great Britain 
and Ireland.， 77Pe Journal of 雪 e 47nt 态 ropological 1mnstitute of Great Britaimn and 7Treland，(2)， 
177-227. 18 


Gers, FE. A., Schmidhuber, J., and Cummins, 上 . (2000). Learning to forget: Continual prediction 
with LSTM. Neuwral computation，12(10),， 2451-2471. 349,，352 


Ghahramani，Z. and Hinton，G. 也 . (1996). The 了 上 M algorithm for mixtures of factor analyzers. 
Technical Report CRG-ITR-96-1, DPpt. of Comp. Sci.，Univ. of Toronto. 417 


Gillick, D., Brunk, C., Vinyals, O., and Subramanya, A. (2015). Multilingual language processing 
位 om bytes，a7Xz prep7int arX1U:T512.00103. 406 


Girshick, R., Donahue, J., Darrell, 工 , and Malik, J. (2015). Region-based convolutional networks 


for accurate object detection and segmentation. 363 


Giudice，M. D.，Manera, V., and Keysers，C. (2009). Programmed to learn? The ontogeny of 
Imirror neurons， Deuw. 9ci.， 12(2),，350---363. 560 


Glorot,，X. and Bengio, Y. (2010)，Understanding the di 和 鱼 culty of training deep feedforward 
neural networks. In 475747552010. 258 


Glorot，X.，Bordes，A.，and Bengio，Y. (2011la)，， Deep sparse rectifer neural networks， Im 
47197479?52011. 15, 150，170,，195 


Glorot, X.，Bordes，A.,，and Bengio, Y. (2011b). Domain adaptation for large-scale sentiment 
classification: A_ deep learning approach. In 7CAMT 20711. 433 


Glorot, X.，Bordes，A.，and Bengio, Y. (2011c). Domain adaptation for large-scale sentiment 
class 认 cation: A _ deep learning approach. In ICM ( lb), pages 97-110. 457 


Goldberger, J., Roweis, $S., Hinton, G. 卫 ., and Salakhutdinov, R. (2005). Neighbourhood compo- 
nents analysis. In 直 . Saul, Y. Weiss, and 工 . Bottou, editors，4aduamces 记 Neural 7mjforrma 友 om 
Processing 9Wstemns 17 (VIP9S104) MIT Press. 101 


参考 文献 635 


Gong, S$., McKenna, $., and Psarrou, A. (2000). Doymamic Vision: From Jages to Face Recog- 
70tiom0. Imperial College Press. 142, 443 


Goodfellow, I.，Le,，Q., Saxe,， A., and Ng, A. (2009). Measuring invariances in deep networks. 
In Y. Bengio, D. Schuurmans，C. Williams, J. Lafferty, and A. Culotta, editors，4duamces 纪 
Neural 17mnjormatiom Processing 9ystems 22 (VIPS709) pages 646-654. 219 


Goodfellow，I.,，Koenig，N.，Muja，M.，Pantofaru，C.，Sorokin，A.，and Takayama, 工 . (2010). 
了 Help me help you: JInterfaces for personal robots，JIn Proc. of Bumam 有 Robot 17mpterac 帮 07 
(BRD Osaka, Japan. ACM Press, ACM Press. 88 


Goodfellow，I，Mirza，M.，Xiao，D.，Courville，A.，and Bengio，Y. (2014a). An empirical 
investigation of catastrophic forgetting in gradient-based neural networks. In 7CZR2 了 4. 168 


Goodfellow,，I J. (2010).， Technical report: Multidimnensional，downsampled convolution for 


autoencoders. Technical report，Universite de Montreal. 302 


Goodfellow,I J. (2014)，On distinguishability criteria for estimating generative models，J 


JpterTatiomal Comjeremnce om Zea773100 尺 epresentaio7s5，ITorKshops Track 531，598 


Goodfellow, I. J.，Courville, A., and Bengio, Y. (2011). Spike-and-slab sparse coding for unsu- 
pervised feature discovery. In NI7P9 [orkspnop om Challenges 记 Lea773700 感 ;erarchical Models. 
454,，458 


Goodfellow, JJ.，Warde-Farley D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxonut 
Detworks. In TCM 20713. 167 


Goodfellow, I. J.,，Warde-Farley, D., Mirza, M.，Courville, A., and Bengio, Y. (2013b). Maxonut 
networks. In ICM ( lc), pages 1319-1327. 227,， 292, 312 














Goodfellow, I J.，Warde-Farley D., Mirza, M.，Courville, A., and Bengio, Y. (2013c). Maxonut 
Detworks.， Technical Report arXiv:1302.4389,， Universite de Montreal. 387 


Goodfellow，I J.,，Mirza，M.，Courville，A.，and Bengio，Y. (2013d).， Multi-prediction deep 
Boltzmann machines. In NIP ( 1). 89, 526,， 572, 574，575，576,，577，596 


Goodfellow，I 本 ，Warde-Farley，D.，Lamblin，P.，Dumoulin，V.，Mirza，M.，Pascanu， 且 .， 
Bergstra，J.,，Bastien，F.，and Bengio，Y. (2013e).，Pylearn2: a machine learning research 
library.，a7rX?u Drep7iT0t arX7u:1308.4214. 23，380 


Goodfellow, I. J.，Courville，A., and Bengio,Y. (2013f). Scaling up spike-and-slab models for 
unsupervised feature learning. TBEEP 人 P4WMT), pages 1902-1914. 425, 426, 555 


636 参考 文献 


Goodfellow，I. J.，Courvile，A.，and Bengio，Y. (2013g).，Scaling up spike-and-slab models 
for unsupervised feature learning， 7TPEPEP 7Tyransactioms om Patterm 4malysis ad MacApizmne 
7Tntel1igence, 35(8)，1902-1914. 583 


Goodfellow, 工 J.，Shlens,，J.，and Szegedy，C. (2014b).， Explaining and harnessing adversarial 
examples. CoRR, abs/1412.6572. 230, 231, 233, 473, 474 


Goodfellow, [I. J.,,， Pouget-Abadie, J,， Mirza, M., Xu, B.，Warde-Earley  D., Ozair, $.，Courville， 
A., and Bengio, Y. (2014c). Generative adversarial networks. In NTIP5?2014. 464,，588，597， 
598,， 601 


Goodfellow, I. J.,， Bulatov, Y., Ibarz, J,,， Arnoud, $., and Shet, V. (2014d). Multi-digit number 
recognition fom Street View imagery using deep convolutional neural networks. In 7mpter7a- 
万 o7Q! Comjeremce om Zear707009 已 ep7esenta 帮 0o705. 22，89, 174, 175,， 334, 359, 382 


Goodfellow，I J.,，Vinyals，O.，and Saxe，A. M. (2015).，Qualitatively characterizing neural 
Detwork optimization problems， In 7Vmptermatomal Comjeremce 0 Zea773720 已 epresemita 友 07.5， 
244, 245，246, 248 


Goodman, J. (2001).，Classes for fast maximum entropy training. In 7mternatiiomal Comjeremnce 
om 4covwstics，9peech amd 95919701 Processing (TC4595SP) Utah. 397 


Gori，M. and Tesi，A. (1992).，On the problem of local minima in backpropagation， 7 五 太 
7ya7zsac 友 o7s 07 Patterm 472a1ysis and Machine Ttelligence, PAMI-14(1)，76-86. 243 


Gosset, VWV. 3. (1908). The probable error of a mean. Biometrika, 6(1), 1-25. Originally published 
under the pseudonym“Student” 18 


Gouws, $., Bengio, Y., and Corrado,，G. (2014). BilBOWA: Fast bilingual distributed represen- 
tations without word alignments. Technical report,，arXiv:1410.2455. 406, 459 


Graf, 也 P. and Jackel, L. D. (1989)， Analog electronic neural network circuits，CYrcuzts amd 
Deuices Magazine， 1 瑟 P 忆 5(4)，44-49. 384 


Graves, A. (2011). Practical variational inference for neural networks. In V7TP9?2011. 208 


Graves，A. (2012). .Superuised 9equence Pabel1ing WUith Recurrent Neuwral NetuuorKs.，Studies ip 
Computational Intelligence. Springer. 320, 336,， 351，392 


Graves，A. (2013)， Generating sequences with recurrent neural networks. Technical report， 
arXiv:1308.0850. 164, 349, 351, 354, 358 


Graves, A. and Jaitly, N. (2014). Towards end-to-end speech recognition with recurrent neural 
Detworks. In TCM 20714. 349 


参考 文献 637 


Graves，A. and Schmidhuber，J. (2005)，EFramewise phoneme class 计 cation with bidirectional 
LSTM and other neural network architectures，Neural Vetuuorfs, 18(5)，602-610. 337 


Graves, A. and Schmidhuber, J. (2009). O 担 ine handwriting recognition with multidimensional 
Iecurrent neural networks. In D. Koller，D. Schuurmans,，Y. Bengio,， and 工 . Bottou，editors， 
AN7P52”2008, pages 545-552. 337 


Graves，A.，FEern&ndez，$.，Gomez，F.，and Schmidhuber，J. (2006). Connectionist tempo- 
Ial classification: Labelling unsegmented sequence data with recurrent neural networks，JIn 
TCM7 2006, pages 369-376, Pittsburgh，USA. 392 


Graves, A., Liwicki, M.， Bunke, 耳 ., Schmidhuber, J.,，and Ferng&ndez, S. (2008). Unconstrained 
on-line handwriting recognition with recurrent neural networks. In JPlatt，D. Koller， 
Y. Singer, and 8. Roweis, editors，N7P5?72007,， pages 577-584. 337 


Graves, A., Liwicki，M.，Fern&indez, $.，Bertolami, R.，Bunke, 百 ., and Schmidhuber，J. (2009). 
A_ novel connectionist system for unconstrained handwriting recognition， Potterm 4malys7s 
amad Machine 7Tntelligence， TPR Transactions on, 31(5)，855-868. 349 


Graves, A., Mohamed, A., and Hinton, G. (2013). Speech recognition with deep recurrent neural 
networks. In 7C4935P2013,， pages 6645-6649. 337, 340, 349, 392 


Graves, A., Wayne, G., and Danihelka, I. (2014). Neural Turing machines. arXiv:1410.5401. 23， 
356 


Grefenstette, 卫 ., Hermann, K. M., Suleyman, M., and Blunsom, P. (2015). Learning to transduce 
with unbounded memory. In NI7P5272015. 356 


Gref， 开 .，Srivastava， 及 . 开 .，Koutn 人 k，J.，Steunebrink，B. R.，and Schmidhuber，J. (2015). 
LSTMI: a search space odyssey，、a7X? Drep7imnt arXYU:1503.04069. 352 


Gregor,， 开 .and LeCun，Y. (2010a)，Emergence of complex-like cells in a temporal product 
Detwork with local receptive fields. Technical report, arXiv:1006.0448. 300 


Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In 工 . Bottou 
and M. Littman，editors，Proceediugs of the Tenty-seven 坝 Ttermatiomal Comjerence o7 
Macjhine Lear7i09 (TCMT-10). ACM. 558 


Gregor, 人 ., Danihelka, [I., Mnih, A., Blundell, C., and Wierstra, D. (2014). Deep autoregressive 
networks. In 7Tpternatiomal Comjerence om Machimne Learni2g (TCM 2014). 592 


Gregor， 开 .，Danihelka，I，Graves，A.，and Wierstra，D. (2015)，DRAW: A recurrent neural 
Detwork for image generation. arX?zu Drep7inpt a7X7U:1502.04623. 596 


638 参考 文献 


Gretton，A.，Borgwardt, 下 . M.，Rasch，M. J.,，Scholkopf，B.，and Smola，A. (2012)，A kernel 
two-sample test， ThPe ,Journal of Macjhine Learni7g Research， 13(1),， 723-773. 601 


Guillaume Desjardins, Karen Simonyan, 及 . P. K. K. (2015). Natural neural networks. Technical 
ITeport，arXiv:1507.00210. 273 


Gulcehre，C. and Bengio, Y. (2013).， Knowledge matters: Importance of prior information for 


optimijization. TIechnical Report arXiv:1301.4083，Umniversite de Montreal. 22 


Guo, 再 . and Gelfand,，S$. B. (1992). Classification trees with neural network feature extraction . 
Veural Netuuorfs，1PEPP Transactions on 3(6)，923-933. 383 


Gupta，9.，Agrawal，A.，Gopalakrishnan, 天 .，and Narayanan，P. (2015)，Deep learning with 
limited numerical precision， CoRR, abs/1502.02551. 384 


Gutmann， M. and Hyvarinen， A. (2010). Noise-contrastive estimation: A_ new estimation prin- 
ciple for unnormajlized statistical models.， In Proceeayngs of THPe THAzrteem 雪 7ntermna 友 oat 
Comjference om 47r 记 jcial 7ntelligence amd 9tatistics (47197475210). 529 


Hadsell, R., Sermanet, P., Ben, J.,, Erkan, A., Han, J., Muller, U., and LeCun, Y. (2007). Online 
learning for offroad robots: Spatial label propagation to learn long-range traversability，JIDn 
Proceedings oj Robotics: 9cience and 9Vstes， Atlanta, GA,，USA. 386 


Hajnal，A.，Maass，W.，Pudlak，P.，S$zegedy，M.,，and Turan，G. (1993).， Threshold circuits of 
bounded depth. JJ Comp?t 刀 9Vstem. 0c1.，46, 129-154. 172 


Hastad，J. (1986).，Almost optimal lower bounds for small depth circuits， In Proceeaings of 
太 e 18 雪 aual 4CM 9yDoszu7m 0 TPReory of Comzputimg, pages 6-20, Berkeley，California. 
ACM Press. 172 


Hastad, J. and Goldmann, M. (1991). On the power of small-depth threshold circuits，Comnzpvu- 
tatiomal CompDlezzty， 113-129. 172 


Hastie, 工 , Tibshirani, R.，and Friedman,，J. (2001).， The elements of statistical learnimag: data 


700720710，?1zjferemce ad Dr7ediciiom. Springer Series in Statistics. Springer Verlag. 126 


He, 人 ., Zhang, X., Ren, $., and Sun, J. (2015). Delving deep into rectifers: Surpassing human- 
level performance on ImageNet classification. arXzu prep7znt arXYU:1502.01852. 23，167 


Hebb, D. O. (1949). 7Tpe Organizatiom of Behauior. Wiley, New York. 13, 15, 560 


Hena 人 ，M.，Jarrett， 开 .，Kavukcuoglu, .，and LeCun，Y. (2011)，Unsupervised learning of 
sparse features for scalable audio classification. In 79W1TR3TI. 447 


参考 文献 639 


Henderson, J. (2003). Inducing history representations for broad coverage statistical parsing. In 
瑟 1T-N44C7, pages 103-110. 406 


Henderson，J. (2004)，Discriminative training of a neural network statistical parser，In Pro- 
ceedz9s of te 421d 4772Ua1 Meeting om 4ssocyaziom Jor Computa 友 oal 了 19U15 厄 cs，Page 95. 
406 


Henniges，M.，Puertas，G.，Bornschein，J.，Eggert，J.，and Liicke，J. (2010)， 了 Binary sparse 
coding. Im Patent Variable 4malysis ad 91070201 9eparaio, pages 450-457. Springer. 546 


Herault, J. and Ans, B. (1984). Circuits neuronaux a synapses modifables: Dkcodage de mes- 
Sages composites par apprentissage non Supervis6.， Comzptes Fenaus de !” 4cadeErmie aes 9c1- 
emce5s, 299(III-13)，525---528. 419 


Hinton，G., Deng, L., Dahl,G. 卫 ., Mohamed, A., Jaitly N., Senior, A., Vanhoucke, V., Nguyen， 
P.,， Sainath, 工 .and Kingsbury，B. (2012a).， Deep neural networks for acoustic modeling in 
Speech recognition， 7 五 PP 3;gmal Process1ng Magazine, 29(6)， 82-97. 22, 391 


Hinton，G.，Vinyals，O.，and Dean, J. (2015)，Distilling the knowledge in a neural network. 
a7XI Drep7nt arX1uU:1503.025371. 381 


Hinton，QG. 卫 . (1989).，Connectionist learning procedures，4rijicial 17mpteligence， 40，185-234. 
421 


Hinton，G. 卫 . (1990)，Mapping part-whole hierarchies into connectionist networks， 4r 妈 jcza/ 
Tntel1igemce, 46(1)，47-75. 356 


Hinton，G. 瑟 . (1999). Products of experts. In Proceeaings of 雪 e Nin 志 Jpnternatomal Comjerence 
om 47jcial Neuwral Netuuorks (TC4NN) volume 1, pages 1-6, Edinburgh, Scotland. IEE. 486 


Hinton，Q. 卫 . (2000). Training products of experts by minimizing contrastive divergence. Tech- 
Dical Report GCNU TIR 2000-004, Gatsby Unit，University College London. 519, 578 


Hinton，G. 也 . (2006).，To recognize shapes，first learn to generate images.， Technical Report 
UTML TIR 2006-003，University of TIoronto. 451 


Hinton，GQ. 卫 . (2007a). How to do backpropagation in a brain. Invited talk at the NIPS?2007 
Deep Learning Vorkshop. 560 


Hinton，GQ. 也 . (2007b). Learning multiple layers of representation. 7Tyremas 如 cog72jt5Ve sciemces， 
11(10),， 428-434. 564 


Hinton，G. 卫 . (2010).，A practical guide to training restricted Boltzmann machines，Technical 
Report UTML TIR 2010-003，Comp. 8c.，University of Toronto. 519 


640 参考 文献 


Hinton，G. 卫 . (2012)， Tutorial on deep learning.， IPAM Graduate Summer School: Deep 


Learning,，Feature Learning. 262 


Hinton，G. 卫 . and Ghahramani, Z. (1997). Generative models for discovering sparse distributed 


Tepresentations. PHpzlosopjhical 7Tyramsactioms of 妃 e Royal 9ocie 怒 of Pomdom. 128 


Hinton，G. 也. and McClelland，J. 工 . (1988).，Learning representations by recirculation. In 
AN7P571987, pages 358-366. 429 


Hinton，G. 卫 . and Roweis, $. (2003). Stochastic neighbor embedding. mm NT7PS952002. 443 


Hinton，G. 卫 . and Salakhutdinov, R. (2006). Reducing the dimensionality of data with neural 
Detworks. Sciemnce, 313(5786)，504-507. 435, 448, 451, 452, 454 


Hinton，G. 卫 . and Sejnowski, 工 . J. (1986)，Learning and relearning in Boltzmann machines. 
ID. 卫 .Rumelhart and J. 工 . McClelland, editors，Parallel Distrybuted Process179, volume |， 
chapter 7, pages 282-317. MIT Press，Cambridge. 486, 559 


Hinton，G. 卫 . and Sejnowski, 工 . J. (1999)，Vmsuperutisead learning: Joundations of neural com- 


Duta 厂 om MIT Press. 462 


Hinton，G. 卫 . and Shallice, 工 . (1991). Lesioning an attractor network: investigations of acquired 


dyslexia.， Psycjpoloogical review, 98(1),， 74. 12 


Hinton，G. 卫 . and Zemel，R. $. (1994). Autoencoders，minimnum description length，and 
了 elmholtz free energy. In NI7P952993. 429 


Hinton，GQL. 卫 .,，Sejnowski, 工 . J.，and Ackley，D. 五 . (1984a). Boltzmann machines: Constraint 
satisfaction networks that learn.， TIechnical Report TR-CMU-CS-84-119，Carnegie-Mellon 
University, Dept. of Computer Science. 486 


Hinton，GQ. 卫 .，Sejnowski, 工 . J.,，and Ackley，D. 互 . (1984b).， Boltzmann machines: Constraint 
satisfaction networks that learn.， TIechnical Report TR-CMU-CS-84-119，Carnegie-Mellon 
University, Dept. of Computer Science. 559 


Hinton，QG. 了 上 ., McClelland, J., and Rumelhart,D. (1986). Distributed representations. In D. 卫 . 
Rumelhart and J. 工 . McClelland, editors，Paralle! Dist 杂 utead Process179: 尼 Zplorazio7s 记 如 e 
Microstructure of Coomi 太 om ,volume 1, pages 77-109. MIT Press，Cambridge. 16，194,， 449 


Hinton，G. 卫 ., Revow, M., and Dayan, P. (1995a). Recognizing handwritten digits using mixtures 
of linear models，In G. Tesauro，D. Touretzky，and 工 . Leen，editors，4advuamces zt Veural 
Jmjformatiom Processing 9ystems 7 (VIP9;04) pages 1015-1022. MIT Press，Cambridge, MA. 
417 


参考 文献 641 


Hinton，G. 卫 .，Dayan,，P.，EFrey， B. J.,，and Neal,，R. M. (1995b)， The wake-sleep algorithm for 
Unsupervised neural networks. cience, 268,， 1558-1161. 431,，557 


Hinton，G. 卫 .,， Dayan，P.,， and Revow, M. (1997). Modelling the manifolds of images of hand- 
WwWTiitten digits， 7 五 也 Tyramsac 碟 oms om Neural VetuorKs, 8, 65-74. 426 


Hinton，G. 卫 .，Wellng，M.，Teh，Y. W.，and Osindero，S9. (2001).，A new view of ICA.， 了 
Proceedings of 37d 17mtermatiomnal Comjerence om 帮 dependent ComDpoment 47malyszs ad 忆 10md 
61gmal 9eparatiomn (UTC4501) pages 746-751, San Diego，CA. 419 


Hinton，QG. 卫 ., Osindero, $., and Teh, Y. (2006a). A fast learning algorithm for deep belief nets. 
Weuwral ComzpDutatiom，18,， 1527-1554. 13，17, 21，506,，564，565 


Hinton，G. 卫 ., Osindero, $., and Teh, Y.-W. (2006b). A fast learning algorithm for deep belief 
Dets，NVeuwyral ComDputatiomn 18, 1527-1554. 125,，451，452 


Hinton，G. 卫 ., Deng, 直 .，Yu, D., Dahl，G. 卫 ., Mohamed,， A., Jaitly, N.，S$enior，A.，Vanhoucke， 
V., Nguyen, P., Sainath, 工 N., and 上 ingsbury, B. (2012b). Deep neural networks for acoustic 
Imodeling in Speech recognition: The shared views of four research groups， 7TEFEP 5197mal 
Process. 1ag.， 29(6),， 82-97. 89 


Hinton，G. 卫 .，Srivastava，N.，Krizhevsky，A.，Sutskever，[，and Salakhutdinov，R 及 . (2012c). 
Improving neural networks by preventing co-adaptation of feature detectors. Technical report， 
arXiv:1207.0580. 205,，226 


Hinton，G. 卫 .，Srivastava，N.，Krizhevsky，A.，Sutskever，I，and Salakhutdinov，R. (2012d). 
Improving neural networks by preventing co-adaptation of feature detectors. Technical report， 
arXiv:1207.0580. 229 


Hinton，QG. 卫 ., Vinyals, O., and Dean, J. (2014). Dark knowledge. Invited talk at the BayLearn 
Bay Area Machine Learning Symposium. 381 


Hochreiter，S. (1991a). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis， 
工 .U. Miinchen. 343,， 344 


Hochreiter，S9. (1991b)，Untersuchungen zu dynamijischen neuronalen Netzen. Diploma thesis， 


Institut fir Informatik, Lehrstuhl Prof. Brauer，Technische Universitat Minchen. 16 


Hochreiter, S$. and Schmidhuber, J. (1995). Simpjlifying neural nets by discovering Hat minima. 
In 4duamces 刻 Veu7ral 17mjorma 友 om Process1729 9Vste70s 7,， pages 529-536. MIT Press. 209 


Hochreiter，$. and Schmidhuber，J. (1997)，Long short-term memory，Veuwral Computatiom， 
9(8), 1735-1780. 16, 349, 351 


642 参考 文献 


Hochreiter, $., Bengio, Y., and Frasconi, P. (2001). Gradient How in recurrent nets: the di 得 culty 
of learning long-term dependencies， In J. Kolen and 3. 上 remer，editors，FYyeld Cuwiade to 
Doymarmical 有 ecurrent Netuorks. IEEE Press. 351 


Holi, J. 工 . and Hwang, J.-N. (1993). Finite precision error analysis of neural network hardware 
implementations，Computers，1 瑟 PP Transactions om 42(3),，281-290. 384 


Holt，J. 工 .and Baker,， 工 . 也. (1991).， Back propagation Simulations using limited precision 
calculations，JIn Neuw7ral NetuorkKs，1991.，7T7JCMN-91-o9eatte 171ptermnatiomal Joznt Comjeremnce 
07,， Volume 2, pages 121-126. IEEPE. 384 


Hornik, ., Stinchcombe，M.，and White, 也 . (1989). Multilayer feedforward networks are Uni- 
veIsal approximators， Neuw7al NetuorKs, 2,， 359-366. 171 


Hornik, 天 .，Stinchcombe，M.，and White, 了 . (1990).， Universal approximation of an unknown 
mapping and its derivatives using multilayer feedforward networks. Veural metuorks，3(5)， 
551-560. 171 


Hsu, 下.- 耳 . (2002). Behind Deep Bue: Building 如 e Computer 7TPat Defeatead 妇 e ITorld Chess 
Chammpion. Princeton University Press, Princeton, NJ, USA. 2 


Huang, FE. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov random 
fields on lattice. 47mzals of 雪 e Jstitute of 9tatistical Mat 妇 ematcs, 54(1)，1-18. 525 


Huang, P.-$.，He, X.，Gao, J， Deng, ,Acero, A., and Heck, 工 . (2013). Learning deep struc- 
tured semantic models for web search using cjlickthrough data， JIn Proceedimngs of 如 e 22md 
4CM YYnpternatiomal comjerence om Comjeremce om Jormmaa 友 om 名 iowledge aagemzent Pages 
2333-2338. ACM. 408 


Hubel, D. and Wiesel, 工 . (1968). Receptive fields and functional architecture of monkey striate 
Cortex. .Journal of Phpysiology (Zomndom) 195, 215-243. 311 


Hubel，D. 责 . and Wiesel, 工 . N. (1959)，Receptive fields of single neurons in the cat?s striate 
cortex. .Jouwr7al of Physiyology,， 148,，574-591. 311 


Hubel, D. 也 . and Wiesel, 工 . N. (1962).， Receptive fields, binocular interaction，and functional 
architecture in the cat?s visual cortex. .Jou7rmal of Physiology (Zomdom), 160, 106-154. 311 


Huszar, 上 . (2015)，How (not) to train your generative model: schedule sampling，likelihood， 
adversary? a7X1iuU:15171.05707. 596 


Hutter, 上 .，Hoos, 百 ., and Leyton-Brown, 民 . (2011). Sequential model-based optimization for 
general algorithm configuration. In ZITON-5. Extended version as UBC Tech report 工 R-2010- 
10. 371 


参考 文献 643 
Hyotyniemi， 互 . (1996)，Turing machines are recurrent neural networks，JIm 97eP?;96，pages 
13-24. 325 


Hyvarinen，A. (1999). Survey on independent component analysis，Veuwral Computi7g 9uUrveys， 
2, 94-128. 419 


Hyvarinen，A. (2005a). Estimation of non-normalized statistical models using score matching. 
Joural of Macjhzmne Zearmi79 Research， 6,， 695-709. 437 


Hyvarinen，A. (2005b). Estimation of non-normalized statistical models using score matching. 
JUWachimne Leayrmt1g 玉 es.，6. 526 





Hyvarinen，A. (2007a). Connections between score matching, contrastive divergence, and pseu- 
dolikelihood for continuous-valued variables， 7TEFEE Transactiio7s om Veural Netuorks，18， 
1529-1531. 527 


Hyvarinen，A. (2007b). Some extensions of score matching， Commpautatiomal 9tatistics ad Data 
4malys1s，51,，2499-2512. 527 


Hyvarinen，A. and Hoyer, P. O. (1999). Emergence of topography and complex cell Properties 


ffom natural images Using extensions of ica. In NI7P59, pages 827-833. 421 


Hyvarinen，A. and Pajunen，P. (1999). Nonlinear independent component analysis: Existence 
and uniqueness results， Neural Netuorks, 12(3), 429-439. 420 


Hyvarinen，A., Karhunen,，J.,，and Oja, 卫 . (2001a). mmdepenadent Compoment 4malysis，、Wiley- 


Interscience. 419 


Hyvarinen，A.，Hoyer，P. 0O., and Inki，M. O. (2001b)，Topographic independent component 
analysis，Neural Comzputatiiomn， 13(7)，1527-1558. 421 


Hyvarinen，A.，Hurri，J.，and Hoyer，P. O. (2009)， Natural 71mage 9tatistics: 4 probapbi15stic 


QDD7oacjh to ea7rly com2Dutatiomal Vis1om. Springer-Verlag. 316 


Iba，Y. (2001)，Extended ensemble Monte Carlo， Tternatiomal .Jourmal of Moderm Physics， 
C12, 623-656. 514 


Inayoshi, 了 . and Kurita, 工 . (2005). Improved generajlization by adding both auto-association and 
hidden-layer noise to neural-network-based-classifiers， 7 五 甩 已 全 orkshop om Macjhzmne Lea7707009 


Jor 9797al Process1ng, pages 141--146. 440 


JIoffe,，S. and S$zegedy，C. (2015).， Batch normalization: Accelerating deep network training by 
reducing internal covariate shift. 88,， 271,，273 


644 参考 文献 


Jacobs, R. A. (1988). Increased rates of convergence through learning rate adaptation. Neural 
metuo7rks, 1(4)， 295-307. 261 


Jacobs, R. A.，Jordan，M. I.,， Nowlan,， 9. J.，and Hinton，G. 卫 . (1991)，Adaptive mixtures of 
local experts，Veuwral ComDutatiomn， 3,，79-87. 163,，383 


Jaeger, 了 再. (2003)，Adaptive nonlinear system identification with echo state networks， In 4d- 


VQ7Ces 如 Veural 711jorma 太 om Process1129 9Vystems 15. 345 


Jaeger, 吾 . (2007a). Discovering multiscale dynamical features with hierarchical echo state net- 


works. Technical report，Jacobs University. 340 
Jaeger, 吾 . (2007b). Echo state network. Scholarpedia, 2(9),，2330. 345 


Jaeger， 互 . (2012).，Long short-term memory in echo state networks: Details of a simulation 


study.、 Technical report，Technical report，Jacobs University Bremen. 346 


Jaeger, 再 . and Haas, 也 . (2004). Harnessing nonlinearity: Predicting chaotic systems and saving 


energy in wireless communication. Science,， 304(5667),，78-80. 21, 345 


Jaeger, 了 .Lukosevicius，M.， Popovici, D., and Siewert，U. (2007). Optimization and applica- 
tions of echo state networks with leaky- integrator neurons. Veral Netuuorks, 20(3), 335-352. 
348 


Jain，V.，Murray，J. 上 .，Roth, 上 .，Turaga，9.，Zhigulin，V.，Briggman， 开 . 工 .，Helmstaedter， 
M. N.，Denk，W.，and Seung, 瓦 . $. (2007)，Supervised learning of image restoration with 
convolutional networks，JIn Commputer Vszon，2007 7TCCTY 2007. TBEHEPE 17 坝 有 terna 友 oal 
Comjerence om, pages 1-8. IEEE. 306 


Jaitly N. and Hinton，G. (2011). Learning a better representation of speech soundwaves using 
restricted Boltzmann machines. In 4covustics，9peech amd 5970mnal Processing (TC45S9SP)， 2011 
7TEPP Tternatomal Comjerence om pages 5884-5887. IEEPE. 390 


Jaitly N. and Hinton，G. 卫 . (2013). Vocal tract length perturbation (VTLP) improves speech 
recognition. In 7TCAW 20713. 207 


Jarrett, 人., 上 avukcuoglu, 上 ., Ranzato, M., and LeCun, Y. (2009a). What is the best multi-stage 
architecture for object recognition7y In Proc. 1ptermatiomal Comjeremnce om ComzpDuter Yisiom 
CCCTVY209) pages 2146-2153. IEEE. 15,， 167 


Jarrett, 上., Kavukcuoglu, 人 ., Ranzato, M., and LeCun, Y. (2009b). What is the best multi-stage 
architecture for object recognitiony In 7CCTY209. 20, 21, 150,，195, 310,，447 


参考 文献 645 


Jarzynski, C. (1997). Nonequijlibrium equality for free energy diferences， Phys. Rev Ze 大 ,78， 
2690-2693. 533，536 


Jaynes, 卫 . 工 . (2003). Probability 7T1Peory: THe Zoogic of 9cience. Cambridge University Press. 47 


Jean, S$., Cho, 天 ., Memisevic, R., and Bengio, Y. (2014). On using very large target vocabulary 


for neural machine translation. arXiv:1412.2007. 403 


Jelinek, FE. and Mercer, R. 工 . (1980). Interpolated estimation of Markov source parameters 们 om 
sparse data，、Jn 卫 . 39. Gelsema and 工 . N. 基 anal，editors，Paotterm Recoogmi 帮 om 记 _Practice. 
North-Holland, Amsterdam. 393, 402 


Jia Y. (2013).， Caffe: An open source convolutional architecture for fast feature embedding. 
http://caffe.berkeleyvision.org/. 23，182 


Jia, Y.,， Huang，C., and Darrell, 工 . (2012). Beyond spatial pyramids: Receptive field learning 
for pooled image features. In Compauter Vision amd Pottern 忆 ecogm 说 om (CTYPR) 2012 1 瑟 P 厅 
Comjerence om, pages 3370-3377. IEEE. 293 


Jim, 开 .-C.，Giles，C. 工 .，and Horne，B. G. (1996)，An analysis of noise in recurrent neural 
Detworks: convergence and generalization， 7 五 玉 7Tyramsactio7ms om INVeuwyral Vetuorfs，7(6)， 
1424-1438. 208 


Jordan,，M. 工 (1998). Zearning 乞 Grapjical Models. 人 luwer,， Dordrecht,， Netherlands. 16 


Joulin, A. and Mikolov, 工 . (2015). Inferring algorithmic patterns with stack-augmented recurrent 
Dets，a7Xu DTep7Umt arX1:T1503.071007. 356 


Jozefowicz，R.，Zaremba，W.，and Sutskever,， II. (2015)，An empirical evaluation of recurrent 
Detwork architectures. In TCM 20715. 260, 351,， 352 


Judd, J. S. (1989). Neural Netauom Design amd 如 e Complezity of Pearnz9g. MIT press. 250 


Jutten，C. and Herault, J. (1991).， Blind separation of sources，part I: an adaptive algorithm 


based on neuromimetic architecture. .9190l! Process179，24,，1-10. 419 


开 ahou，89. 卫 .，Pal，C.，Bouthillier，X.，EFroumenty，P.，Giilcehre，c.，Memisevic， 及 .，Vincent， 
P.，Courville，A.，Bengio，Y.，Eerrari，R. C.，Mirza，M.，Jean，9.，Carrier，P. 工 ，Dauphin， 
Y.，Boulanger-Lewandowski，N.，Aggarwal，A.，Zumer，jJ.，Lamblin，P.，Raymond，jJ.-P.， 
Desjardins，G.，Pascanu，R.，Warde-EFarley，D.，Torabi，A.，Sharma，A.，Bengio， 了 上 .，C6te， 
M., Konda, 下. R., and Wu, 2Z. (2013). Combining modality specifc deep neural networks for 
emotion recognition in video，JIn Proceedings of 妇 e 15 志 4CAM om yptermatiomal Comjerence 


om Multimaoadal Tteractiom. 174 


646 参考 文献 


Kalchbrenner，N. and Blunsom，P. (2013). Recurrent continuous translation models. In 
EMNILP22013. 403 


Kalchbrenner, N.,， Danihelka, I.,，and Graves，A. (2015)， Grid long short-term memory，arXzv 
D7eDp7dTt arX1U:1507.01526. 338 


Kamyshanska, 百 . and Memisevic，R. (2015).， The potential energy of an autoencoder， 7 瑟 F 甩 


Tya7sac 龙 0705 07 Patterm 47ma1ys1s ad Macjimne 7nptel1igemce. 439 


Karpathy，A. and Li FE.-F. (2015). Deep visual-semantic alignments for generating image de- 
Scriptions. In CTVYPR2015. arXiv:1412.2306. 90 


Karpathy,  A., Toderici, G., Shetty, $., Leung, 工 ., Sukthankar, R., and Fei-Fei, 工 . (2014). Large- 


Scale video_ classification with convolutional neural networks. In CTVPR. 18 


Karush，VW. (1939).， Miznizmma of Formctions of Several Yariables Wi 态 mnequalities as 5;qde Com- 
straznts. Master's thesis, Dept. of Mathematics，Univ. of Chicago. 85 


Katz, 9. M. (1987). Estimation of probabilities from sparse data for the language model compo- 
nent of a Speech recognizer. TB Tamsactioms om 4coustics，59peech，a7d 9790Q1 Process770.09， 
ASSP-35(3), 400-401. 393, 402 


Kavukcuoglu, 下 .，Ranzato，M.，and LeCun，Y. (2008).， East inference in sparse coding algo- 
Tithms with applications to object recognition. Technical report，Computational and Biolog- 
ical Learning Lab, Courant Institute, NYU. Tech Report CBLL- 工 R-2008-12-01. 447 


Kavukcuoglu, K., Ranzato, M.-A., Fergus, R., and LeCun, Y. (2009). Learning invariant features 
through topographic flter maps. Im CTYPRZ72009. 447 


Kavukcuoglu, KK., Sermanet, P., Boureau, Y.-L., Gregor, 下 ., Mathieu, M., and LeCun, Y. (2010). 


Learning convolutional feature hierarchies for visual recognition. In NZP9572010. 310,， 447 


Kelley, 互 . J. (1960).Gradient theory of optimal Hight paths.， 4RS Journal 30(10)，947-954. 
194 


Khan, 了.，Zhu, X., and Mutlu, B. (2011). How do humans teach: On curriculum learning and 
teaching dimnension. In 4duamces 筷 Neural 71mjormaiom Processing 9ystems 24 (CVIP5S2TT)， 
pasges 1449-1457. 280 


Kim，9. 天 .，McAfee，L. C.，McMahon，P. 工 .，and Olukotun， 开 . (2009).，A highly scalable 
restricted Boltzmann machine FEFPGA implementation. In Eyeld Progra7nz7aable ZLogzc a72d 
4pplicatiioms，2009. PP 2009. 17nternatomal Comjerence om pages 367-372. IEEE. 384 


参考 文献 647 


Kindermann, 有 R. (1980). Markou Ranadom Fields and 7heir 4pplications (Contemporary Mat 纪 - 
emzatics ; 7 7) American Mathematical Society.、 482 


Kingma，D. and Ba, J. (2014)， Adam: A method for stochastic optimization.， arXzu preprznt 
a7X1u:T14712.6980. 262 


Kingma, D. and LeCun,Y. (2010a). Regularized estimation of imnage statistics by score matching. 
In NI7P92010. 438 


Kingma, D. and LeCun, Y. (2010b). Regularized estimation of image statistics by score match- 
ing. In J. Lafferty，C. . I. Williams，J. Shawe-Taylor，R. Zemel， and A. Culotta，editors， 
4dvamces 纪 Neural 1mjormatiom Process?729 9Vste0s 23，pages 1126-1134. 528 


Kingma, D., Rezende, D., Mohamed, $., and Welling, M. (2014). Semi-supervised learning with 
deep generative models. In NI7P5?2014. 363 


Kingma，D. P. (2013). East gradqdient-based inference with continuous latent variable models in 
auxiliary form. Technical report，arxiv:1306.0733. 558，588,，594 


Kingma, D. P. and Welling, M. (2014a). Auto-encoding variational bayes. In Proceeaings of 如 e 
Tnternuatiozal Comjerence om Learnmz1g 民 epresentatiomns (TCR). 588，597 


Kingma, D. P. and Welling, M. (2014b). 卫 重 cient gradient-based inference through transforma- 


tions between bayes nets and neural nets. Technical report,，arxiv:1402.0480. 588 


Kirkpatrick, S., Jr.，C. D. G., ,and Vecchi, M. P. (1983). Optimization by simnulated annealing. 
9cience, 220, 671-680. 279 


Kiros, R.，Salakhutdinov, R.，and Zemel, R. (2014a).， Multimnodal neural language models. In 
TCM 2014. 90 


Kiros, R., Salakhutdinov, R., and Zemel, R. (2014b). Unifying visual-semantic embeddings with 
Imultimnodal neural language models. arXzu:1411.2539 [cs.LG]. 90, 349 


Klementiev，A., Titov, I., and Bhattarai, B. (2012). Inducing crosslingual distributed represen- 
tations of words. In Proceedzmgs of COLITNG 20712. 406, 459 


开 nowles-Barley，9.，Jones， 工 . 及 .，Morgan，J.，Lee，D., 上 asthuri，N.，Lichtman，J. W.，and 
Pfister, 也 . (2014). Deep learning for the connectome. CPU Technology Comjerence. 24 


Koller, D. and Friedman, N. (2009). Probabilisiic Grappical Models: _ Principles and Techniques. 
MIT Press. 496, 506,， 551 


648 参考 文献 


Konig，Y.，Bourlard, 百 .，and Morgan，N. (1996)，REMAP: Recursive estimation and maxi- 
mization of a posteriori probabilities - application to transition-based connectionist speech 
recognition，In D. Touretzky，M. Mozer, and M. Hasselmo, editors，4aduamces 纪 Neural 7m- 
Jormatiom Processing 9ystems 8 (NIP5295) MIT Press, Cambridge, MA. 390 


Koren, Y. (2009). The BellKor solution to the NetHix grand Prize. 222, 408 


Kotzias，D.，Denil，M.，de Freitas，N.，and Smyth，P. (2015)， From group to individual labels 
Using deep features. In 4CM 97CGKDD. 93 


Koutnik，J.，Gref， 天 .，Gomez，FE.，and Schmidhuber，J. (2014).， A clockwork RNN.， 了 
TCM 2014. 348 


Kogcisky 工 ., Hermann, K. M., and Blunsom, P. (2014). Learning Bilingual Word Representations 
by Marginalizing Alignments. In Proceedzgs of 4C1. 404 


Krause，O.，Fischer，A.，Glasmachers,， 工 .，and Igel，C. (2013).，Approximation Properties of 
DBNSs with binary hidden units and real-valued visible units. In 7CW 人 2013. 472 


Krizhevsky, A. (2010). Convolutional deep belief networks on CIFAR-10. Technical report，Uni- 
versity of Toronto. Unpublished Manuscript: http://www.cs.utoronto.ca/ kriz/conv-cifarl10- 
aug2010.pdf. 380 


Krizhevsky，A. and Hinton，G. (2009). Learning multiple layers of features from tiny images. 
Technical report，University of TIoronto. 18,， 477 


Krizhevsky, A. and Hinton，G. 也 . (2011). Using very deep autoencoders for content-based image 
retrieval. Im 天 54NNV. 448 


Krizhevsky, A., Sutskever, IL, and Hinton, G. (2012a). ImageNet classification with deep convo- 
lutional neural networks. In N7P52012. 20, 21, 88,， 174, 317 


Krizhevsky，A.，Sutskever，IL，and Hinton，G. (2012b). ImageNet classification with deep 
convolutional neural networks， In 4doamces 纪 Neuwral 17jformatiom Processz1g Vstemas 25 
(VIP5?2012) 22, 386, 389 


Krueger, 下 . A. and Dayan，P. (2009)， 了 Elexible shaping: how learning in small steps helps. 
Coo7i 契 om， 110, 380-394. 279 


Kuhn, 了 再. W. and Tucker, A. W. (1951). Nonlinear programming. In Proceeaqings of 雪 e 9ecomd 
Berkeley 99%70Dos1uU72 0 Matpematical 95tatistiics ad Probabi1t 妈 ，pages 481-492，Berkeley， 
Calif. University of Cajlifornia Press， 85 


参考 文献 649 


Kumar，A.，Irsoy，O.，Ondruska，P.，Iyyer，M.，Bradbury，J.，Gmulrajani，I.，and Socher， 及 . 
(2015a).， Ask me anything: Dynamic memory networks for natural language processing. 
Technical report, arXiv:1506.07285. 356 


Kumar，A.，Irsoy，0O.，Su, J.,，Bradbury，J.,，English，R.，Pierce，B.，Ondruska，P.，Iyyer，ML,， 
Gulrajani，I，and Socher，R. (2015b)，Ask me anything: Dynamic memory networks for 
natural language processing. a7X7u:1506.07285. 412 


Kumar, M. P., Packer, B., and 上 oller, D. (2010). Self-paced learning for latent variable models. 
In J. Lafterty CC. 下 .I Williams, J. Shawe-Taylor, R. Zemel, and A. Culotta, editors,， 4duwamces 
2 Neuwral 1mnjormatiom Process?129g 90Vstems 23,， pages 1189-1197. 279 


Lang, 开 . J. and Hinton，G. 卫 . (1988)， The development of the time-delay neural network 
architecture for Speech recognition. Technical Report CMU-CS-88-152, Carnegie-Mellon Uni- 
versity. 313，319,，347 


Lang, 人 . J，Waibel, A. 了 ., and Hinton，G. 也 . (1990). A time-delay neural network architecture 
for isolated word recognition， TVeuwyral metuuo7rKs, 3(1)，23-43. 319 


Langford，J. and Zhang, 工 . (2008)，The epoch-greedy algorithm for contextual multi-armed 
bandits. Im N7P5972008,， pages 1096---1103. 409 


Lappalainen, 也 .，Giannakopoulos, X.，Honkela, A., and Karhunen,，J. (2000). Nonlinear inde- 
pendent component analysis Using ensemble learning: Experiments and discussion. In Proc. 
7TC4. Citeseer. 420 


Larochelle, 再 . and Bengio, Y. (2008a). Classification using discriminative restricted Boltzmann 
machines. In 7CAW 人 2008. 210, 586, 610 


Larochelle, 再 . and Bengio, Y. (2008b). Classification using discriminative restricted Boltzmann 
machines, In ICM ( la), pages 536-543. 219, 453 


Larochelle, 互 . and Hinton，G. 卫 . (2010)，Learning to combine foveal glimpses with a third- 
order Boltzmann machine. In 4aduamces 纪 Neural 1mnjormatiom Process119g 9yste0s 23,， Pages 
1243-1251. 313 


Larochelle, 百 . and Murray,， I. (2011)，The Neural Autoregressive Distribution Estimator， In 
47157479722011. 602, 604, 605 


Larochelle, 百 .，Erhan，D., and Bengio，Y. (2008). Zero-data learning of new tasks. Im 4447 
Cojerence om 47 友 czal Ttelligemce. 459 


Larochelle， 酝 .，Bengio，Y.，Louradour，J.，and Lamblin，P. (2009).Exploring strategies for 
training deep neural networks. mm JML ( 1), pages 1-40. 455 


650 参考 文献 


Lasserre，J. A.，Bishop，C. M.，and Minka，TI. P. (2006).， 了 Principled hybridqs of generative 
and discriminative models， In Proceeadzmgs of 雪 e ComDuUter Vsiom ad Patterm Recogmio7 
Comjerence (CVPRJ06) pages 87-94，Washington, DC, USA. IEEE Computer Society.， 210， 
218 


Le, Q., Ngiam, J.,, Chen, Z., hao Chia, D. J., Koh, P. W., and Ng, A. (2010). Tiled convolutional 
neural networks. Im J. Laftferty, CC. 人 . I. Williams, J. Shawe-Taylor, R. Zemel, and A. Culotta， 
editors,， 4duamnces 纪 Neural 1mjormatiom Processing 9ystems 23 (UV1P95210) pages 1279-1287. 
300 


Le Q., Ngiam,，J.，Coates， A., Lahiri，A.，Prochnow,，B.，and Ng, A. (2011). On optimization 
Imethods for deep learning. In Proc. TCM 2011. ACM. 270 


Le, Q., Ranzato, M., Monga, R., Devin, M., Corrado, G., Chen, 人 ., Dean, J., and Ng, A. (2012). 
Building high-level features using large Scale unsupervised learning. In 7CW 20712. 20, 21 


Le Roux, N. and Bengio, Y. (2008). Representational power of restricted Boltzmann machines 
and deep belief networks. TVewral Comzputaion,， 20(6), 1631-1649. 472, 560 


Le Roux, N. and Bengio, Y. (2010). Deep belief networks are compact universal approximators. 
Veural Computation，22(8)，2192-2207. 472 


LeCun, Y. (1985). Une procedure dapprentissage pour Rkseau a seujil assymetridque. In Coom2- 
好 0Q 85: 4 1a Homtiere de 17ptelligence 47 友 jcyelle，des 9cyemnces de la Commza7zssa7lce et des 
Weuroscyemces, pages 599-604, Paris 1985. CESTA,，Paris. 194 


LeCun, Y. (1986). Learning Processes in an asymmetric threshold network. In 也 . Bienenstock， 
了 上 . Eogelman-Souli6, and G. Weisbuch, editors，Dysorqdered 959stens and Biologzcal Orga7z2Q- 
万 0 pages 233-240. Springer-Verlag,，Berlin, Les Houches 1985. 298 


LeCun, Y. (1987). Moaeles commezyomistes de /appyrentissage. Ph.D. thesis，Universit6 de Paris 
VI. 16, 429, 440 


LeCun,，Y. (1989). Generalization and network design strategies，Technical Report CRG-TR- 
89-4,， University of Toronto. 281，298 


LeCun，Y.，Jackel,，. D.，Boser，B.，Denker，J. $.，Graf， 吾 . P.，Guyon，I.，Henderson，D,， 
Howard，R. 了 E.，and Hubbard，W. (1989).， Handwritten digit recognition: Applications of 
neural network chips and automatic learning. 7 五 及 P Comzmazaicatiomns Magazine, 27(11)，41 一 
46. 314 


LeCun，Y.，Bottou, 工 ，Orr，G. B., and Miiller, 开 .-R. (1998a).， 了 fcient backprop， In Neuwra/ 
Vetbuorks，7Tyycks of 妇 e Trade，Lecture Notes iD Computer Science LNCS 1524. Springer 
Verlag. 265 


参考 文献 651 


LeCun，Y.，Bottou, 工 ，Orr，G. B.，and Miiller， 开 . (1998b)， 卫 重 cient backprop， In Newra/ 
Netuors，Tyricps oj 如 e Trade. 365 


LeCun, Y., Bottou, 工 , Bengio, Y., and Haffner, P. (1998c). Gradient based learning applied to 
document recognition. Proc. 7 尼 PP. 14, 16,，18, 21, 317, 390,，392 


LeCun, Y.,Kavukcuoglu, K., and Farabet, C. (2010). Convolutional networks and applications in 
Vision. In Crcuits and 9ystems (15C49)，Proceeqdings of 2010 7 万 PP 1mternatiomal 95ymDposzurmm 
072，pages 253-256. IEPEPE. 317 


工 也 cuyer, P. (1994). 卫生 ciency improvement and variance reduction. In Proceedings of te 1994 
人 ynpter 97maUlatiom Comnjerence, pages 122---132. 589 


Lee，C.-Y.,， Xie, 9., Gallagher, P., Zhang, 2., and Tu, Z. (2014). Deeply-supervised nets，arXzv 
D7eDp7zTt QTrXTU:1409.5185. 278 


Lee， 再 .，Battle，A.，Raina，R.，and Ng，A. (2007)，Efcient sparse coding algorithms.， In 
也 . Scholkopf J. Platt，and 工 . Hoffman，editors，4dvuamces 和 记 Veural 1mjformatiom Processi729 
ystems 19 (VIPS706) pages 801-808. MIT Press. 544 


Lee, 也 .,Ekanadham，C.，and Ng, A. (2008). Sparse deep belief net model for visual area V2. 
In NT7P59207. 219 


Lee， 互 .，Grosse，R.，Ranganath，R.，and Ng，A. Y. (2009). Convolutional deep belief net- 
works for scalable unsupervised learning of hierarchical representations，In 工 . Bottou and 
M. Littman，editors，Proceedzmgs of 矶 e Tenty-si 雪 Ttermatiomal Comjferemce om Machzme 
Zea77510 (CNWTE 09) ACM, Montreal, Canada. 310,， 583，584 


Lee, Y. J. and Grauman, 上. (2011). Learning the easy things first: self-paced visual category 
discovery. In CTYPR220711. 279 


Leibniz，G. W. (1676). Memoir using the chain rule. (Cited in 工 MME 7:2&3 p 321-332, 2010). 
194 


Lenat, D. B. and Guha,，R. V. (1989).， Buiz1dzng Jarge knowledge-bgased systems; repyresentatiom 
amad ?jerence 侯 如 e Cyc project. Addison-Wesley Longman Publishing Co., Inc. 2 


Leshno，M.，Lin，V. Y.，Pinkus，A., and Schocken, S. (1993). Multilayer feedforward networks 
with a nonpolynomial activation function can approximate any function， eural Netuo7Ks， 
6, 861---867. 171，172 


Levenberg, K. (1944). A method for the solution of certain non-linear problems in least squares. 
Quarterly Journal of 4ppliead Matpematics, II(2)，164-168. 266 


652 参考 文献 


工 瑟 Opital, G. 上 . A. (1696). 4malyse des 各 jipizmaent petit，pour 77ntel1igence des 110mnes couTrbes. 
Paris: LImprimerie Royale. 194 


Li Y.，Swersky, 上.，and Zemel, R. $. (2015)，Generative moment matching networks，CoRRR， 
abs/1502.02761. 600 


Lin, 工 ., Horne, B. G., Tino, P., and Giles, C. 工 . (1996). Learning long-term dependencies is not 
as dj 得 cult with NARX recurrent neural networks， 7 已 EBP Tyransactioms om Neu7al VetuorKs， 


7(6), 1329-1338. 347 


Lin, Y., Liu, Z., Sun, M., Liu, Y., and Zhu, X. (2015). Learning entity and relation embeddings 
for knowledge graph completion. mm Proc. 4447775. 412 


Linde, N. (1992). The machine that changed the world, episode 3. Documentary miniseries. 2 


Lindsey, C. and Lindblad, 工 . (1994). Review of hardware neural networks: a user ”8s perspective. 
In Proc. THzyrd [orksjpop om Veural Netbuorfs: Hom Biology 如 五 I91 Energy Phystcs， pages 
195---202, Isola dqElba,， Italy. 384 


Linnainmaa，S9. (1976)，Taylor expansion of the accumulated rounding error， BTT TVaunerical 
Mathematics, 16(2)，146-160. 194 


LISA (2008). Deep learning tutorials: Restricted Boltzmann machines. Technical report, LISA 
Lab，Universite de Montreal. 501 


Long，P. M. and Servedio, R. A. (2010). Restricted Boltzmann machines are hard to apPproxi- 
Imately evaluate or Simulate. In _Proceedimngs of 如 e 29 地 7ptermao7al Comjeremce om acRpzme 
Zea775109 (CUWTE 2 了 TO) 561 


Lotter，W., Kreiman，G.，and Cox, D. (2015). Unsupervised learning of visual structure using 


predictive generative networks.，a7X?u D7ep7zmat arXYU:157171.06380. 464, 465 


Lovelace, A. (1842). Notes upon 工 . F. Menabrea2s“Sketch of the Analytical Engine invented by 
Charles Babbage” 1 


Lu, 工 ，Zhang，X.，Cho, 民 .，and Renals,，S. (2015)，A study of the recurrent neural network 


encoder-decoder for large vocabulary Speech recognition. In Proc. 7mterspeech. 392 


Lu, 工 ., PP 组 , D., and P 纪 , M. (2010). Contextual multi-armed bandits. In 7mternatiomal Comjer- 
e7Ce 07 47 友 czal Ttel1ige7mce ad 9tatistics, Pages 485-492. 409 


Luenberger, D. G. (1984). Zinear amd Nomlimnear Programmz9. Addison Wesley. 270 


Lukogevicius，M. and Jaeger, 互 . (2009).，Reservoir computing approaches to recurrent neural 


Detwork training， Compzuter 9ciemce euiew, 3(3)，127-149. 345 


参考 文献 653 


Luo, 百 ., Shen, R., Niu，C.,， and Ullrich，C. (2011). Learning class-relevant features and class- 
irrelevant features via a hybrid third-order RBM. Im 7pternazomal Cormjeremnce om 47 友 czal 
Tnptelligemce ad 9tatistiics， pages 470-478. 586 


Luo, 百 .，Carrier,，P. 工 ，Courville， A.,， and Bengio, Y. (2013).， Texture modeling with convolu- 
tional spike-and-slab RBMSs and deep extensions. In 47974759752013. 90 


Lyu，S. (2009).， JInterpretation and generalization of score matching.， In Proceedings o 如 e 
Toenty- 帮 ji Comjerence 绞 Uncertaimnt 妈 识 47 丰 Jicial 7ntelligence (04709) 527 


Ma,，J.，Sheridan，R. P.，Liaw，A.，Dahl，G. 卫 .，and Svetnik，V. (2015)，Deep neural nets as 
a method for quantitative Structure -activity relationships.，.J，CPpernical 和 Jormatom amzd 


700deli700. 452 


Maas，A. 工 ，Hannun，A. Y.，and Ng，A. Y. (2013).，Rectifer nonlinearities improve neural 
network acoustic models， Im 7TCAMZ Torkshpop om Deep Learning jor 4udio，5peech，amd 
了 amguage Processz7g. 167 


Maass，W. (1992).，Bounds for the computational power and learning complexity of analog 
neural nets (extended abstract)， In Proc. of 妇 e 25 志 4CM 5Symp. 7TPeory of Computin9， 
pages 335-344. 172 


Maass，W., Schnitger，G.,， and Sontag, 了 上. D. (1994). A_ comparison of the computational power 
of sigmoid and Boolean threshold circuits， 7TPeoretical 4duvamces 纪 Neural Compautatio7m a72d 


ear721729，pages 127-151. 172 


Maass，W.,，Natschlaeger, 工 ，and Markram, 了 . (2002)，Real-time computing without stable 
states: A_ new framework for neural computation based on perturbations， AMVeuwral Compauta- 
龙 om， 14(11), 2531-2560. 345 


MacKay, D. (2003). 7mjormation 7TPpeory，7mjerence amd Zearnzng 41gorttjpms， Cambridge Uni- 
versity Press. 66 


Maclaurin, D., Duvenaud, D., and Adams, R. P. (2015). Gradient-based hyperparameter opti- 
mization through reversible learning. arX?zu prep7zmnt a7X7u:1502.03492. 370 


Mao, J., Xu W., Yang, Y.,， Wang, J.,, and Yuille, A. (2014). Deep captioning with multimodal 
recurrent neural networks (Im-rnn)， a7X?zu:1412.6632 /cs.CTV/. 90 


Marcotte, P. and Savard, G. (1992). Novel approaches to the discrimination problem. Zeitschrt 玫 
太 r Operatiomns Research (7TPeory) 36,， 517-545. 237 





Marlin，B. and de Freitas，N. (2011).，Asymptotic e 生 ciency of deterministic estimators for 
discrete energy-based models: Ratio matching and pseudolikelihood. Im UL477207171. 526,， 528 


654 参考 文献 
Marlin, B.,Swersky, 人 ., Chen, B., and de Freitas, N. (2010). Inductive Principles for restricted 
Boltzmann machine learning. In 4797479?2010, pages 509-516. 522，527 


Marquardt, D. W. (1963). An algorithm for least-squares estimation of non-linear Parameters. 


Jourmal of 妇 e 9ocie 妈 of Jaustrial and 4pplied Mathematics,， 11(2)，431-441. 266 
Marr, D. and Poggio, 工 . (1976). Cooperative computation of stereo disparity. Science, 194. 313 


Martens, J. (2010). Deep learning via Hessian-free optimization. In TCM 20710, pages 735-742. 
259 


Martens, J. and Medabalimi, V. (2014). On the expressive e 重 ciency of sum product networks. 
a7X1o0:T4T1.7717. 472 


Martens，J. and Sutskever，I. (2011)，Learning recurrent neural networks with Hessian-free 
optimization. In Proc. TCM 2011. ACM. 352, 353 


Mase, S. (1995)，Consistency of the maximum pseudo-likelihood estimator of continuous state 


space Gibbsian processes. The 47rmals of 4ppjiead Probability, 5(3), PP. 603-612. 525 





McClelland，J.，Rumelhart，D.，and Hinton，G. (1995).， The appeal of parallel distributed 
Processing. In Commputatiom 6 intelligence, pages 305-341. American Association for Articial 


Intelligence. 15 


McCulloch, W. S. and Pitts, W. (1943). A logical calculus of ideas immanent in nervous activity. 
Bulietim o Mathpematical Biopjiystcs，5，115-133. 13 


Mead，C. and Ismail, M. (2012).， 4malog TZS7 ?mplementaiom of neural systems，volume 80. 
Springer Science & Business Media. 384 


Melchior，J.，Fischer，A.，and Wiskott, 工 . (2013)， How to center binary deep Boltzmann ma- 
chines.，Qa7Xzu Drep7zm0t a7XYuU:13171.1354. 575 


Memisevic，R. and Hinton，G. 卫 . (2007).， Unsupervised learning of image transformations， Im 


Proceedings of 雪 e Computer Vision and Patternm Recogn 庆 om Comjference (CTPR0M. 586 


Memisevic，R. and Hinton，G. 也 . (2010)，Learning to represent spatial transformations with 


factored higher-order Boltzmann machines.， Neural Computaton,， 22(6)，1473-1492. 586 





Mesnil，G.，Dauphin，Y.，Glorot, X.，Rifai，9.，Bengio，Y.，Goodfellow,，[.，Lavoie, 也.，Muller， 
X.，Desjardins，G.，Warde-Farley，D.，Vincent，P.，Courville，A.，and Bergstra，jJ. (2011). 
Unsupervised and transfer learning challenge: a deep learning approach. mm .AMZR 玉 6CP: 
Proc.， UVmswperuwised and Transjer Zear71729，volume 7. 174, 454, 458 


参考 文献 655 


Mesnil,G.,，Rifai, $., Dauphin, Y.,， Bengio, Y., and Vincent, P. (2012). Surfing on the manifold. 
Learning Workshop,， Snowbird. 607 


Miikkulainen，R. and Dyer，M. G. (1991)，Natural language processing with modular PDP 
Detworks and dijstributed lexicon. Coo7itve 9czence， 15，343-399. 406 


Mikolov, 工 . (2012).， Statistical Zamguage Models based om Veuwral Netuuorks. Ph.D. thesis，Brno 
University of Technology. 353 





Mikolov, 工 ., Deoras，A., Kombrink，S.，Burget, 工 ,， and Cernocky, J. (2011la). Empirical eval- 
uation and combination of advanced language modeling techniques， JIn Proc. 72t am7rauat 
co7ljeremce of 雪 e 如 termatiomal speec 有 co7m7T0aI71ca 胡 0 05socyatiom (TVNTERSPEECT 20171). 
402 


Mikolov, 工 ., Deoras, A., Povey, D., Burget, 工 ., and Cernocky, J. (2011b). Strategies for training 
large Scale neural network language models. mm Proc. 45RU7207171. 279, 402 


Mikolov, 工 , Chen, K., Corrado, G., and Dean, J. (2013a). 卫生 cient estimation of word represen- 
tations in vector Space. In 7ptermatomal Comjeremce om Lea77T1109 尺 epresemnta 刀 0105 [TorKsPoDps 
Track. 456 


Mikolov, 工 , Le, Q. V., and Sutskever, [I. (2013b). Exploiting simijlarities among languages for 
Imachine translation. Technical report，arXiv:1309.4168. 459 


Minka, 工 . (2005)，Divergence measures and message passing.， iceroso 龙 Research Cambriadge 
VK Tecoh Rep WMS9RTR2005173,，72(TR-2005-173). 533 


Minsky, M. 直 . and Papert, $. A. (1969). Perceptroms. MIT Press，Cambridge. 14 


Mirza，M. and Osindero，S9. (2014)，Conditional generative adversarial nets， arXiu Dreprz7t 
a7X1o:T4T11.1784. 599 


Mishkin, D. and Matas, J. (2015). All you need is a good init. arXiu prep7rint arXzu:1511.06422. 
259 


Misra, J. and Saha, I. (2010). Artificial neural networks in hardware: A survey of two decades 


of progress， Neuroco7mputin9g,， 74(1)，239-255. 384 
Mitchell, 工 M. (1997). Wuacjhine Zearning. McGraw-Hill) New York. 87 


Miyato, 工 , Maeda, $., Koyama, M., Nakae, 人., and Ishii, S. (2015). Distributional smoothing 
with Virtual adversarial training. In 7CZR. Preprint: arXiv:1507.00677. 231 





Mnih，A. and Gregor, K. (2014)， Neural variational inference and learning in belief networks. 
In 7TCWT 2014. 590,， 591,， 592 


656 参考 文献 


Mnih，A. and Hinton，G. 卫 . (2007). Three new graphical models for statistical language mod- 
elling. In 2Z. Ghahramani, editor，Proceedzmgs of 如 e Tenty-jowr 雪 Interna 友 omal Comjeremce 
om Machizmne Zear7j109 (TCM 07) pages 641-648. ACM. 396 


Mnih，A. and Hinton，G. 卫 . (2009)，A scalable hierarchical distributed language model，Im 
D. Koller, D. Schuurmans, Y. Bengio, and 工 . Bottou, editors, 4duamces 筷 Neural 7mjforrma 友 om 
Processing 9Wstemns 21 (VIP9;08) pages 1081-1088. 397 


Mnih，A. and Kavukcuoglu， 开 . (2013). Learning word embeddings e 重 ciently with noise- 
contrastive estimation. In C. Burges, 工 . Bottou  M. Welling，2Z. Ghahramani, and 天. Wein- 
berger，editors，4duamces 纪 Neuwral 有 njormatom Processzg 9Vstems 26，pages 2265-2273. 
Curran Associates, Inc. 401, 530 


Mnih，A. and Teh, Y. W. (2012). A fast and simple algorithm for training neural probabilistic 
language models. In TCM 20712, pages 1751-1758. 401 


Mnih,V. and Hinton，G. (2010). Learning to detect roads in high-resolution aerial images. Im 
Proceedings of 雪 e 1 地 Buropeam Comjerence om Computer Vision (有 CCT). 90 





Mnih, V., Larochelle, 再 ., and Hinton, G. (2011). Conditional restricted Boltzmann machines for 
structure output prediction. Im Proc. Comnj om LVmcertaznty 各 47 丰 cial Tteliigence (LA4D. 
585 


Mnih，V.，Kavukcuoglo, 人 .，Silver，D.，Graves，A.，Antonoglou, I.，and Wierstra，D. (2013). 
Playing Atari with deep reinforcement learning. Technical report,，arXiv:1312.5602. 93 


Mnih，V.，Heess，N.，Graves，A.，and Kavukcuoglu， 开 . (2014).， Recurrent models of visual 
attention.， In 2Z.，Ghahramani，M. Welling，C. Cortes，N. Lawrence，and 天. Weinberger， 
editors，N17P5972014,， pages 2204-2212. 591 


Mnih，V.，Kavukcuoglo, 开 .，Silver，D.，Rusu，A. A.，Veness，J.，Bellemare，M. G.，Graves， 
A.，Riedmiller，M.，FEidgeland，A. 天 .，Ostrovski，G.，Petersen，S.，Beattie，C.，Sadik，A,， 
Antonoglou， I.，King， 互 ., Kumaran，D.，Wierstra，D.，Legg，S.，and Hassabis，D. (2015). 
Human-level control through deep reinforcement learning. Vature， 518,，529-533. 23 


Mobahi, 百 . and Fisher，II J. W. (2015).，A theoretical analysis of optimization by Gaussian 
continuation. In 444772015. 279 


Mobahi, 百 .，Collobert，R.，and Weston，J. (2009).， Deep learning ffom temporal coherence in 
Video. In 工 . Bottou and M. Littman, editors，Proceeqz7gs of 如 e 26 雪 1ptermatiomal Comjeremce 


07m 1Uaocjhpizme Zea7r7029, pages 737-744,， Montreal. Omnipress. 421 


Mohamed，A.,， Dahl，G.，and Hinton，G. (2009). Deep belief networks for phone recognition. 
391 


参考 文献 657 


Mohamed,， A., Sainath, 工 N., Dahl, G.，Ramabhadran, B.，Hinton，G. 卫 .，and Picheny， M. A. 
(2011). Deep belief networks using discriminative features for phone recognition. In 4covus 友 cs， 
Opeech amud 95;g7al Processing (TC455SP) 2011 PP 1mternational Comjerence om pages 5060- 
5063. IEEEB. 391 


Mohamed, A., Dahl, G., and Hinton, G. (2012a). Acoustic modeling using deep belief networks. 
TB Trans. om 4uaio，9peech amd Famguage Processing， 20(1)，14-22. 391 


Mohamed，A.，Hinton，G.，and Penn，G. (2012b).，Understanding how deep belief networks 
perform acoustic modelling.， Im 4covustics，Speech amd 95197001 Processing (TC455SP)，2012 
TBPP 17mternatomal Comjerence om Pages 4273-4276. IEEE. 391 


Moller， M. (1993). 互 扩 czent 7Tyaining of Feed-Forward TVeuwral Netuuorks. Ph.D. thesis，Aarhus 
University, Aarhus, Denmark. 270 


Montavon，G.， and Muller， 开 .-R. (2012). Deep Boltzmann machines and the centering 
trick.， In G.， Montavon，G. Orr，and 开 .-R. MUller，editors，Veuwral Netuorks: Tyrcps of 
态 e Trade，volume 7700 of Zecture Notes 已 CommDuter 9ciennce，pages 621-637.，Preprint: 
http://arxiv.org/abs/1203.3783. 575 


Montdfar, G. (2014). Universal approximation depth and errors of narrow belief networks with 


discrete units， Neural Co7mzDputa 友 om 26. 472 


Monttdfar, G. and Ay N. (2011). Reftinements of universal approximation results for deep belief 
networks and restricted Boltzmann machines， Neuwral Computation,， 23(5)，1306-1319. 472 


Montufar, G. 上 ., Pascanu, R., Cho, K., and Bengio, Y. (2014). On the number of linear regions 
of deep neural networks. In NIP9?2014. 17, 172,， 173 





Mor-Yosef, $.，Samuelof，A.，Modan, B., Navot，D., and Schenker, J. G. (1990).， Ranking the 
Tisk factors for cesarean: logistic regression analysis of a nationwide study，、CObstet CUWmecol， 
75(6), 944-7. 2 


Morin, FE. and Bengio, Y. (2005). Hierarchical probabilistic neural network language model. Im 
47974797?2005. 397,， 399 


Mozer，M. C. (1992)，The induction of multiscale temporal structure， In J. M. 9. Hanson 
and 及 . Lippmann, editors, 4duamces Weural 有 majormatom Processing 95ystems 4 (VIP520T1)， 
Pages 275-282, San Mateo，CA. Morgan 上 人 aufmann. 348 


Murphy, 民 . P. (2012).， Macjpine Zearning: 0 Probapi1stic Perspectiue. MIT Press，Cambridge， 
MA, USA. 56, 87, 126 


658 参考 文献 
Murray，B. U. I._ and Larochelle， 互 . (2014).， A deep and tractable density estimator. Im 
TCM 2014 .164, 606 


Nair, V. and Hinton,，G. (2010a). Rectified linear units improve restricted Boltzmann machines. 
In 7TCW 20710. 150, 170 





Nair，V. and Hinton，G. 卫 . (2009). 3d object recognition with deep belief nets. In Y. Bengio， 
D. Schuurmans, J. D. Lafferty, CC. 下 .I. Williams, and A. Culotta, editors,， 4auamces 纪 NeuTrat 
Jmjformaiom Processy1g 9Vstemns 22, pages 1339-1347. Curran Associates, Inc. 586 


Nair，V. and Hinton，G. 卫 . (2010b).，Rectified linear units improve restricted Boltzmann ma- 
chines. In 工 . Bottou and M. Littman, editors，Proceedzmgs of 记 e Temt 怒 -sevem 坟 7terma 友 oaQt 
Comjerence om Machine Pearninag (TCMZE-10) pages 807-814. ACM. 14 


Narayanan, 了 再. and Mitter, S$. (2010). Sample complexity of testing the manifold hypothesis. In 
J. Lafferty CC. 下 . [Williams, J. Shawe-Taylor, R. Zemel, and A. Culotta, editors，4auamces 
2 Neural 1mjormaiom Process?19 9Vstem1s 23, pages 1786-1794. 141 


Naumann，U. (2008). Optimal Jacobian accumulation is NP-complete.， Mat 妇 ematical Program- 
702729，112(2)，427-441. 191 


Navigli，R. and Velardi，P. (2005)，Structural semantic interconnections: a knowledge-based 
apPproach to word sense disambiguation. PP Trans Pattern 4mnalysis and Machzne 7ntel1- 
9emce, 27(7)，1075---1086. 412 


Neal, R. and Hinton，G. (1999). A view of the 了 EM algorithm that justifies incremental, sparse， 
and other variants. In M. I. Jordan，editor，Zear7i709 2 GT7aphical Models. MIT Press，Cam- 
bridge， MA. 541 


Neal, R. M. (1990). Learning stochastic feedforward networks. Technical report. 591 


Neal, R. M. (1993). Probabilistic inference using Markov chain Monte-Carlo methods. Technical 
Report CRG-TR-93-1, Dept. of Computer Science，University of Toronto. 581 


Neal, R. M. (1994). Sampling from multimnodal distributions using tempered transitions. Tech- 
Dical Report 9421, Dept. of Statistics，University of Toronto. 514 


Neal，R. M. (1996). Baywesian Pearning jor Neural Vetuorks.，Lecture Notes iD Statistics. 
Springer. 228 








Neal, R. M. (2001). Annealed importance sampling. 9tatisiics and Computimg， 11(2)，125-139. 
533,，535, 536 


参考 文献 659 
Neal, R. M. (2005). Estimating ratios of normalizing constants using linked importance sampling. 


536，537 


Nesterov, Y. (1983). A method of solving a convex programming problem with convergence rate 
O(L/12). Souiet Mathematics Doklady,， 27, 372-376. 256 


Nesterov，Y. (2004).，7mptroductory /ectures om comuez optimizaom : Q basic course，Applied 


optimization. 人 luwer Academic Publ., Boston，Dordrecht, London. 256 








Netzer, Y.，Wang, 工 ., Coates, A., Bissacco, A., Wu, B., and Ng, A.Y. (2011). Reading digits in 
natural images with unsupervised feature learning. Deep Learning and Unsupervised Feature 
Learning Workshop, NIPS. 18 


Ney, 再 . and KKneser，R. (1993). Improved clustering techniques for class-based statistical lan- 
guage modelling.， Im Puropeam Comjerence om Speech Commazauaicatiom amnd Techmoloqy (ww- 
7osDpeech) pages 973-976, Berlin. 394 


Ng， 人 . (2015). Advice for applying machine learning. 
https://see.stanford.edu/materials/aimlcs229/ML-advice.pdf. 359 


Niesler， 工 . R.，Wnhittaker,， 卫 . W. D.，and Woodland，P. C. (1998).，Comparison of part-of- 
speech and automatically derived category-based language models for speech recognition. In 
Jpternatiomal Comjerence om 4cous 厄 cs，9peech and 51gnal Processi7g (ITC4595P) pages 177- 
180. 394 


Ning, 了.，Delhomme，D.，LeCun,，Y.，Piano,，F.，Bottou, 直 .，and Barbano，P. 也 上. (2005)，To- 
ward automatic phenotyping of developing embryos from videos， 1Vmpage Process179g9，7 五 已 斑 
7ya7zlsac 友 o7s 07，14(9)，1360-1371. 306 


Nocedal, J. and Wright, 9. (2006). Numerical Optmization. Springer. 82, 85 


Norouzi，M. and Fleet，D. J. (2011).， Minimal loss hashing for compact binary codes， JI 
TCM 20171. 448 


Nowlan, S. J. (1990). Competing experts: An experimental investigation of associative mixture 
models， Technical Report CRG-TR-90-5，University of Toronto. 383 








Nowlan, 3. J. and Hinton，G. 卫 . (1992). Adaptive soft weight tying using Gaussian mixtures. 
In J. M. $. Hanson and 及 . Lippmann，editors，4aduamces 纪 Veural 1mjformatiom Processi729 
ystems 4 CUVTP9701) pages 993-1000, San Mateo，CA. Morgan Kaufmann. 122 


Olshausen, B. and Field, D. J. (2005). How close are we to understanding V1? Neural Comzpv- 
tatom, 17,， 1665-1699. 14 


660 参考 文献 


Olshausen, B. A. and Field, D. J. (1996). Emergence of simple-cell receptive field properties by 
learning a sparse code for natural images. Nature, 381, 607-609. 128, 219, 316,，423 


Olshausen，B. A., Anderson，C. 百 ., and Van Essen, D. C. (1993).A neurobiological model of 
visual attention and invariant pattern recognition based on dynamic routing of ipformation. 
J. Neurosci.,，13(11),，4700-4719. 383 


OPpper，M. and Archambeau，C. (2009)，The variational Gaussian approximation revisited. 
Veural computatiomn, 21(3)，786-792. 588 


Oquab，M.，Bottou, 工 .， Laptev, I，and Sivic，J. (2014).， Learning and transferring mid-level 
image representations using convolutional neural networks. In ComDputer Yiszom a72d Patterm 
Recoognition (CTPR) 2014 1 瑟 PP Comjerence on, pages 1717-1724. IEEE. 456 


Osindero，S. and Hinton，G. 卫 . (2008)， Modeling image patches with a directed hierarchy of 
Markov random fields， Im J. Platt，D. Koller，Y. Singer，and S. Roweis，editors，4aua7zces 
2 Veuwral 7mjformatiom Processimg 9ystems 20 (NTIPS207) pages 1121-1128，Cambridge， MA. 
MITI Press. 539 


Ovid and Martin，C. (2004). Metarmorphoses. W.W. Norton. 1 


Paccanaro，A. and Hinton，GQG. 卫 . (2000). 了 Extracting distributed representations of concepts 
and relations from positive and negative Propositions. In 7mterma 帮 omal Jozmpt Comjeremce o7 
TVeural Netuorjfs (JIJCNNV) Como, Italy. IEEE, New York. 411, 412 


Paine, 工 . 工 ., KKhorrami，P.，Han，W.，and Huang, 工 . $. (2014)，An analysis of unsupervised 
Pre-training in light of recent advances.， Qa7X?u DTep7int aTXYU:14T2.6597. 454 


Palatucci, M., Pomerleau, D., Hinton, G. 卫 ., and Mitchell, 工 M. (2009). Zero-shot learning with 
semantic output codes. In Y. Bengio, D. Schuurmans, J. D. Lafferty，C. 上. I._ Williams，and 
A. Culotta, editors, 4duamces 纪 Neuwral 1mjormatom Processyng 9Vstemns 22, pages 1410-1418. 


Curran Associates, Inc. 459 


Parker, D. B. (1985).， Learning-logic，Technical Report 工 R-47，Center for Comp. Research 记 
了 conomics and Management Sci.，MUITI. 194 


Pascanu, R., Mikolov, T., and Bengio, Y. (2013a). On the di 地 culty of training recurrent neural 
Detworks. In TCM 2013. 247, 343, 348, 353, 354, 355 





Pascanu, R., Mikolov, T., and Bengio, Y. (2013b). On the difculty of training recurrent neural 
networks. In ICM ( lc). 345 


Pascanu, R.，Gulcehre，C.,，Cho, 下 ., and Bengio, Y. (2014a). 了 ow to construct deep recurrent 
neural networks. In 7CZR. 17, 228, 340, 341, 349,， 392 


参考 文献 661 


Pascanu, R., Montufar, G., and Bengio, Y. (2014b). On the number of inference regions of deep 


feed forward networks with piece-wise linear activations. In ICL ( 1). 469 


Pati, Y.,，Rezaiifar,，R., and Krishnaprasad, P. (1993). Orthogonal matching pursuit: Recursive 
function approximation with applications to wavelet decomposition. In Proceedzmgs of 成 e 27 


刀 4mpmaual 4s?loma7r Comjerence om 91gaals，9ystems，a7d ComDuters pages 40-44. 220 


Pearl, J. (1985). Bayesian networks: A model of self-activated memory for evidential reasoning. 
In _Proceedzmgs of 如 e 7 妇 Comjerence of 雪 e CogmtVe ciemnce 9ociet 怒 ，UTmiVersttoy oj California， 
True, pages 329-334. 480 


Pearl, J. (1988). Probapbz15s 友 c Reasonzmg 记 Ttel1igent 9ystems: Vetuorls of _Plausible 7mjerence. 


Morgan 攻 aufmann. 48 
Perron,，O. (1907). Zur theorie der matrices， Mathematische 4mmialen，64(2)，248-263. 508 
Petersen, 多. B. and Pedersen,， M. $. (2006). The matrix cookbook. Version 20051003. 27 


Peterson，G. B. (2004)，A day of great illumination: 也 . FE. Skinner”"s discovery of shaping. 
Jourmal of 妇 e 有 rzperizmental 4malysis of Behauior，82(3)，317-328. 279 


Pham, D.-T., Garat, P., and Jutten, C. (1992). Separation of a mixture of independent sources 
through a maximum likelihood approach. Im 一 VoIPCO, pages 771-774. 419 


Pham, P.- 吾 ., Jelaca, D., Farabet，C., Martini, B., LeCun, Y., and Culurciello, 也. (2012). Neu- 
Flow: datafow vision processing system-on-a-chip， In Crcuwits and 9ystemms (SC49)， 
20712 1PBPE 55 雪 1termnaiomal Miduwest 95V72Dos?uU7T72 072， pages 1044-1047. IEEE. 384 


Pinheiro, P. 再 . O. and Collobert, R. (2014). Recurrent convolutional neural networks for scene 
labeling. In TCM 20714. 306 


Pinheiro，P. 也 . O. and Collobert，R. (2015). From image-level to pixel-level labeling with 
convolutional networks. In Comjerence om Computer Visiom and Patterm Recogmiomn (CTPR). 
306 


Pinto, N.，Cox,，D. D.,， and DiCarlo,，J. J. (2008)，Why is real-world visual object recognition 
hard? Pro9 Comput Biol 4. 388 


Pinto, N., Stone, Z., Zickler, 工 ., and Cox, D. (2011). Scaling up biologically-inspired computer 
Vision: A case study in unconstrained face recognition on facebook，JIn Compauter Viszom 
amad Patternm Recogmitom Torksjhops (CTPR 了 了)，2011 PP Computer 9ocie 怒 Comjerence 
07， pages 35-42. IEEE. 310 


662 参考 文献 


Pollack, J. B. (1990).， Recursive distributed representations， 47tjicial Tteliigence, 46(1)，77- 
105. 341 


Polyak，B. and Juditsky，A. (1992).，Acceleration of stochastic approximation by averaging. 
914M J. Control and Optmizatiomn， 30(4)，838-855. 274 


Polyak, B. 工 . (1964). Some methods of speeding up the convergence of iteration methods， LS5R 
Compautatomal Mathematics and Mathematical Phoysics, 4(5)，1-17. 253 


Poole, B., Sohl-Dickstein, J.,, and Ganguli, S. (2014). Analyzing noise in autoencoders and deep 
networks，CoRR, abs/1406.1831. 207 


Poon， 互 . and Domingos，P. (2011).，， Sum-product networks for deep learning.， In Zearnzmg 
ITorksjpnop, Eort Lauderdale,， FL. 472 


Presley, 及 . 人 . and Haggard, R. 工 . (1994)，A fixed point implementation of the backpropaga- 
tion learning algorithm. In 9ovt 如 eastco7z294.， Cryeatiue Techmology 7Tyramsjfer-4 Gobal 41fotr.， 
Proceedimgs of 刀 e 1994 1EPP, pages 136-138. IEEE. 384 


Price, R. (1958). A useful theorem for nonlinear devices having Gaussian inputs， 五 妃 户 Tyams- 
actio7ms om JTJjormatom Theory, 4(2)，69-72. 588 


Quiroga，R. Q.，Reddy，L.，Kreiman，G.，Koch，C.，and Fried，I. (2005). Invariant visual 
representation by single neurons in the human brain. Nature, 435(7045)，1102-1107. 312 


Radford, A., Metz, L., and Chintala, 9. (2015). Unsupervised representation learning with deep 
convolutional generative adversarial networks， oa7rX?zu Drep7znt arX7U:1511.06434.，、470，471， 
599 


Raiko, 工 , Yao, 工 , Cho, K., and Bengio, Y. (2014). Iterative neural autoregressive distribution 
estimator (NADE-k). Technical report,， arXiv:1406.1485. 576, 605 


Raina, R., Madhavan, A., and Ng, A.Y. (2009a). Large-scale deep unsupervised learning using 
graphics processors， In 工 . Bottou and M. Littman，editors，Proceedzmgs of 如 e Tenty-s27 专 
Jpternatiomal Comnjerence om Machine 7earning (CHWT109)， pages 873-880,， New York，NY， 
USA. ACM. 21 


Raina, R., Madhavan, A., and Ng, A.Y. (2009b). Large-scale deep unsupervised learning using 
graphics processors. In TCM 2009. 379 


Ramsey, 了. P. (1926).， Truth and probability，In R. B. Braithwaite，editor，7pe Fouwnadatioms 
of Maothematics amd other Logical Essays，chapter 7，pages 156-198. McMaster University 
Archive for the History of 了 Economic 工 hought. 49 


参考 文献 663 
Ranzato, M. and Hinton，G. 也 . (2010). Modeling pixel means and covariances using factorized 
third-order Boltzmann machines. In CTVYPR72010, pages 2551-2558. 581 


Ranzato，M.，Poultney，C.，Chopra，S.，and LeCun，Y. (2007a)， 卫 fcient learning of sparse 
ITepresentations with an energy-based model. P N7P5?2006. 13, 433,， 451, 452 





Ranzato，M.，Poultney，C.，Chopra，S.，and LeCun,，Y. (2007b)， 了 fcient learning of sparse 
ITepresentations with an energy-based model，JIn B. S$cholkopf，J. Platt，and 工 . 了 offman， 
editors,， 4duances 纪 Neural 1mjormatiom Processing 9ystems 19 (CV1P95106) pages 1137-1144. 
MIT Press. 17 


Ranzato, M., Huang, 上 ., Boureau, Y., and LeCun, Y. (2007c). Unsupervised learning of invariant 


feature hierarchies with applications to object recognition. In CYPR207. 310 


Ranzato，M.，Boureau, Y., and LeCun, Y. (2008). Sparse feature learning for deep belief net- 
works. In NIP922007. 433 


Ranzato, M., Krizhevsky,  A., and Hinton，G. 卫 . (2010a). Factored 3-way restricted Boltzmann 
Imachines for modeling natural imnages. In Proceedings of 41757479 20710. 579,， 580 





Ranzato, M., Mnih, V., and Hinton，G. (2010b). Generating more realistic images using gated 
MREs. In NI7P9572010. 581 


Rao, C. (1945). Information and the accuracy attainable in the estimation of statistical param- 
eters， BuUlietbm of te Calcutta Mat 妇 ematical 9ocie 怒 ，37,， 81-89. 118,，252 


Rasmus，A.，Valpola, 百 .， Honkala，M.，Berglund，M.，and Raiko, 工 . (2015).， Semi-supervised 
learning with ladder network. arX?u Drep7mat arX7u:1507.02672. 363, 453 


Recht, B., Re, C.,， Wright, S., and Niu, 上 . (2011). Hogwild: A lock-free approach to parallelizing 
Stochastic gradient descent. In N7P95220711. 380 


Reichert，D. P., Series, P., and Storkey, A. J. (2011). Neuronal adaptation for sampling-based 
probabilistic inference in perceptual bistability. In 4dvamces 和 雇 Neuyral 1mjformatiom Processz7209 
yste7105， pages 2357-2365. 569 


Rezende, D. J., Mohamed, S., and Wierstra, D. (2014). Stochastic backpropagation and apProx- 
imate inference in deep generative models. In TCMWT 2014. Preprint: arXiv:1401.4082. 558， 
588，594 


Rifai, $., Vincent, P., Muller, X., Glorot, X., and Bengio, Y. (2011a). Contractive auto-encodersg: 
了 Explicit invariance during feature extraction. In TCM 20711. 445，446，447 


664 参考 文献 


Rifai, $., Mesnil G., Vincent, P., Muller, X.,， Bengio, Y., Dauphin, Y., and Qlorot, X. (2011b). 
也 igher order contractive auto-encoder. In 瑟 CWT PKDD. 445, 446 


Rifai, $3., Dauphin, Y.，Vincent, P., Bengio, Y., and Muller, X. (2011c). The manifold tangent 
classifier. In NM7P922011. 233,，446 


Rifai, $., Dauphin, Y., Vincent, P., Bengio, Y., and Muller, X. (2011d). The manifold tangent 
classifier. In MI7P9?2011. Student paper award. 233 





Rifai,S.，Bengio, Y., Dauphin，Y., and Vincent，P. (2012).A generative process for sampling 
contractive auto-encoders. In TCM 20712. 607 


Ringach, D. and Shapley, 及 . (2004). Reverse correlation in neurophysiology.， Coogmitive Sciemnce， 
28(2), 147-166. 314 


Roberts, 3S. and Everson, R. (2001). 7madependent commpoment aa1ys15: Drzmaciples amd Practice. 


Cambridge University Press. 420 


Robinson, A. J. and Fallside, 下. (1991). A recurrent error propagation network Speech recognition 
System.， Computer Speech and Fa7mguage,， 5(3)，259-274. 21, 390 


Rockafellar, 及 . 工 . (1997). Convex analysis. Princeton landmarks in mathematics. 82 


Romero，A.,， Ballas, N.,Ebrahimi Kahou, $.，Chassang，A.,， Gatta，C.,， and Bengio, Y. (2015). 
Fitnets: Hints for thin deep nets. In 7C7ZR2015，arXyu:1412.6550. 277 


Rosen, J. B. (1960). The gradient projection method for nonlinear programming. part i. linear 
constraints. .Jourmal of 如 he Socyet 妈 Jor 7Jmndustrial and 4pplied Matbematics, 8(1), PP. 181-217. 
83 


Rosenblatt， 了 F. (1958). The perceptron: A probabilistic model for information storage and 
organization in the brain， Psychnoloogzcal Revuiew,，65,， 386-408. 13, 21 


Rosenblatt, 上 . (1962). Principles of Neurodymnanics. Spartan, New York. 21 


Rosenblatt，M. (1956)，Remarks on some nonparametric estimates of a density function， 7Pe 
4772als of Ma 妇 ematical 9tatistics， 27(3)，832-837. 13 


Roweis, S. and Saul, 工 . 人 . (2000). Nonlinear dimensionality reduction by locally linear embed- 
ding. Science, 290(5500). 141, 443 


Roweis, $., Saul, L., and Hinton, G. (2002). Global coordination of local linear models. In 工 . Di- 
etterich，S. Becker, and 2Z. Ghahramani, editors， 4aduamnces 纪 Neural 71mjformatiom Processz7209 
ystems 14 (LVIP5S01) Cambridge, MA. MIT Press. 417 


参考 文献 665 


Rubin，D. B. et aol. (1984).，Bayesianly justi 认 able and relevant frequency calculations for the 
applied statistician. 7Tjpe 4mmals of 9tatistics, 12(4)，1151-1172. 611 


Rumelhart，D.，Hinton，G.，and Williams，R. (1986a). Learning representations by back- 
propagating errors，NVatuyre, 323,，533-536. 13, 194, 406, 410 


Rumelhart, D. 卫 ., Hinton, G. 了 ., and Williams, 及 . J. (1986b). Learning internal representations 
by error Propagation. Im D. 卫 . Rumelhart and J. 工 . McClelland, editors，Parallel Distr7zputed 
Process?19g, volume 1，chapter 8, pages 318-362. MIIT Press,， Cambridge. 18, 21,，194 


Rumelhart，D. 也.，Hinton，G. 卫 .，and Williams，R. J. (1986c)，Learning representations by 
back-propagating errors， Nature,，323,，533-536. 16, 175,，319 


Rumelhart, D. 卫 ., McClelland, J.L., andthe PDP Research Group (1986d)._ Parallel Distributed 
Process?0: BEZDloratioms 纪 记 e Wicerostructure oj Cog1i4om. MIT Press,， Cambridge. 15,，22 


Russakovsky，O.，Deng, J.，Su, 吾 .，Krause,，J.，Satheesh，S.，Ma, $.，Huang,，2., Karpathy，A,， 
Khosla, A., Bernstein, M., Berg, A. C., and Fei-Fei, 工 . (2014a). ImageNet Large Scale Visual 
Recognition Challenge. 18 


Russakovsky，O.，Deng, J.，Su, 再.，Krause,，J.，Satheesh，S.，Ma, $.，Huang,，2., Karpathy，A,， 
Khosla,， A.，Bernstein，M.，et al. (2014b). Imagenet large scale visual recognition challenge. 
a7XIu Drep7Vnt arX10:T1409.0575. 23 


Russel, 9. J. and Norvig, P. (2003). 47r 友 jcial 7pteliigence: ua Wodern 4pproach.， Prentice Hall. 
77 


Rust, N., Schwartz, DO., Movshon, J. A., and Simoncelli, 卫 . (2005). Spatiotemporal elements of 
Imacaque V1 receptive felds， Neurom, 46(6), 945-956. 313 


Sainath, 工 ， Mohamed，A., Kingsbury，B.，and Ramabhadran,， B. (2013). Deep convolutional 
neural networks for LVCSR. Im 7C455P 2013. 391 


Salakhutdinov，R. (2010)，Learning in Markov random felds using tempered transitions，In 
Y. Bengio，D. Schuurmans，C. Williams，jJ. Lafferty，and A. Culotta，editors，4aduamces 记 
TVeural 1mjformatiom Processing Systems 22 (NIP9209). 514 


Salakhutdinov，R. and Hinton，G. (2009a).，Deep Boltzmann machines，In Proceedings oF 妃 e 
Ttermatiomal Comjference om 47 如 cyal Ttelligence and 9tatistics， volume 5，pages 448-455. 
20, 21, 452,，566, 569, 572,，574 


Salakhutdinov，R. and Hinton，G. (2009b).，Semantic hashing.， In 7ptermatiomal .Jou7mial of 
4pprozimaate Reasomz29. 448 


666 参考 文献 


Salakhutdinov，R. and Hinton，G. 也 . (2007a)， Learning a nonlinear embedding by preserving 
class neighbourhood structure. In Proceeaqdzgs of 47197479-2007. 450 


Salakhutdinov,，R. and Hinton，G. 卫 . (2007b). Semantic hashing. In 37G7TR 2007. 448 


Salakhutdinov, R. and Hinton，QG. 卫 . (2008). Using deep belief nets to learn covariance kernels 
for Gaussian processes， In J. Platt，D. Koller, Y. Singer，and 98. Roweis，editors，4aduwamces 
2 Veural 1mjforma 太 om Processimg 9ystems 20 (NTIPS207) pages 1249-1256，Cambridge，MA. 
MIT Press. 210 


Salakhutdinov, R. and Larochelle, 互 . (2010). 卫生 cient learning of deep Boltzmann machines. Im 
Proceedings of 雪 e Tjirteem 雪 1ptermatiomal Comjerence om 47 丰 jicyal Ttellige7ce a72d 9ta 好 5 她 cs 
(479574753 2010) JIMTIR YEGCP, volume 9, pages 693-700. 557 


Salakhutdinov，R. and Mnih,，A. (2008). Probabilistic matrix factorization. In NTP9;2008. 408 


Salakhutdinov, R. and Murray, I. (2008). On the quantitative analysis of deep belief networks. 
In W. W. Cohen，A. McCallum，and 8. 工 . Roweis，editors，Proceeaqi7gs of e Toenty- 甩 计 
Jpternatiomal Comjerence om Macjhine Pearning (TCMTEI08) volume 25, pages 872-879. ACML. 
536,，566 


Salakhutdinov，R.，Mnih，A.,， and Hinton，G. (2007)，Restricted Boltzmann machines for col- 
laborative filtering. In 7CWZL. 408 


Sanger, 工 D. (1994)， Neural network learning control of robot manipulators using gradually 
increasing task di 得 culty， 7 五 有 BE Transactions om RRobotics ad 4utomatiom， 10(3). 279 


Saul, 工 . 人 . and Jordan,，M. I. (1996). Exploiting tractable substructures in intractable networks. 
In D. Touretzky， M. Mozer, and M. Hasselmo, editors，4auamnces 纪 Weuwral 1mnjformatom Pro- 
cess119 9ystems 8 (VT1P9705). MIT Press,， Cambridge, MA. 544 


Saul, 工 .天 ., Jaakkola, 工 ., and Jordan, M. I (1996). Mean field theory for sigmoid belief networks. 
Jour7lal of 47 训 jcial Ttel1gemce 有 esearch， 4 61-76. 21，592 


Savich，A. W., Moussa, M., and Areibi, S. (2007). The impact of arithmetic representation on 
implementing mlp-bp on fpgas: A study，Neural Netuorks，1 瑟 PP Transactions omn，18(1)， 
240-252. 384 


Saxe，A. M., Koh，P. W.，Chen，2.，Bhand，M.，Suresh，B.，and Ng，A. (2011)，On random 
weights and unsupervised feature learning. In Proc. TCM 20171. ACM. 310 


Saxe，A. M.，McClelland，J. 工 .，and Ganguli，S. (2013). Exact solutions to the nonlinear 
dynamics of learning in deep linear neural networks. In 7CZR. 244,， 245,，258 


参考 文献 667 


Schaul, 工 ，Antonoglou，I,，and Silver，D. (2014)，Unit tests for stochastic optimization.， JI 


ynptermatiomal Comjeremnce om Learmtm0g 有 epyresentao7s. 263 


Schmidhuber，J. (1992).， Learning complex，extended sequences using the Principle of history 


compression， Neural Computation, 4(2),， 234-242. 340 


Schmidhuber，J. (1996).， Sequential neural text compression， 7 厂 P Transactions om Neural 
Netuorks, 7(1)，142-146. 406 


Schmidhuber, J. (2012). Self-delimiting neural networks. arXzu prep7rint arXiu:1210.0118. 333 


Scholkopf，B. and Smola，A. J. (2002).， Zearnzng Wi 雪 kernels: Support Vector TaQchi7es，7egu- 


1a7yza 好 0o72，oD 友 0020 友 0，Qd beyomd. MIT Press. 601 


Scholkopf, B., Burges, C. J. C., and Smola, A. J. (1998a). 4dvamces 碌 [ermnel me 专 oqds: supDort 
Vector lear7710. MIT Press，Cambridge, MA. 141 


Scholkopf, B., Smola, A., and Miiller, 民 .-R. (1998b). Nonlinear component analysis as a kernel 
eigenvalue problem. Neuwral Comzputa 如 on， 10,， 1299-1319. 443 


Scholkopf, B., Burges, C. J. C., and Smola, A.J. (1999). 4duamces 乞 开 ermnel Metjpods 一 9upport 
Vector Zearnim9. MIT Press, Cambridge, MA. 16, 124 


Scholkopf, B., Janzing, D., Peters, J., Sgouritsa, 了 上 ., Zhang, 上., and Moojj, J. (2012). On causal 
and anticausal learning. In 7TCW7 2012, pages 1255-1262. 465 


Schuster，M. (1999). On supervised learning fom sequential data with applications for speech 


Tecognition. 164 


Schuster, M. and Paliwal, K. (1997). Biqirectional recurrent neural networks. 7 五 已 己 Tamsac 矶 o715 


om 59797101 Processing, 45(11)，2673-2681. 336 


Schwenk, 百 . (2007)，Continuous space language models. Computer speec 几 amd amguaqe，21， 
492-518. 396 


Schwenk, 也 . (2010). Continuous space language models for statistical machine translation， 77e 


Prague Bulletim of Mao 矿 ematical 卫 纪 9Uis 太 cs，93,，137-146. 402 
Schwenk, 也 . (2014). Cleaned subset of WMT ?14 dqataset. 18 


Schwenk, 再 . and Bengio, Y. (1998). Training methods for adaptive boosting of neural networks. 
In M. Jordan，M. Kearns, and $. Solla， editors，4duamces 碌 Neural 1mnjformatom Process17209 


Vstems 10 (VIP507) pages 647-653. MIT Press. 222 


668 参考 文献 


Schwenk, 百 . and Gauvain, J.-. (2002). Connectionist language modeling for large vocabulary 
continuous Speech recognition， Im 7mpztermaio7a! Comjferemnce 0o7 4coustics，5peecP ad 597379701 
Processing (TC455P) pages 765-768,， Orlando, Florida. 396 


Schwenk,， 百 .，Costa-jussa，M. 有 人.，and Fonollosa,，J. A. R. (2006).，Continuous space language 
models for the IWSLTI 2006 task. In Jpterma 友 oal [orkshpop om 9Dpokem La7guage Tra7slato7m， 
pages 166-173. 402 


Seide，F.，Li，G.，and Yu，D. (2011).， Conversational speech_ transcription Using context- 


dependent deep neural networks. In 7mpterspeec 几 20171, pages 437-440. 22 


Sejnowski, 工 . (1987).， Higher-order Boltzmann machines. In 47P Conjerence Proceedings 151 
0 IVeu7ral Netuuorks jor Computimng, pages 398-403. American Institute of Physics Inc. 586 


Series，P.，Reichert，D. P.，and Storkey，A. J. (2010).， Hallucinations in Charles Bonnet syn- 
drome induced by homeostasis: a deep Boltzmann machine model， In 4duamces 纪 Neural 


JTJmjorma 龙 om _Process?17g 9ystems， pages 2020-2028. 569 


Sermanet，P.，Chintala，$S.，and LeCun, Y. (2012).，Convolutional neural networks applied to 
house numbers digit classification. In 7mpternatomal Comjerence om Pattern Recognitiom (CTCPR 
2012). 388 


Sermanet, P., Kavukcuoglu, 人 ., Chintala, $9., and LeCun, Y. (2013). Pedestrian detection with 
Unsupervised multi-stage feature learning， In Proc. 7pterma 龙 o7Q1 Comjeremnce om ComzDuter 
Tisiom and Pattern Recogmitiomn (CTPR713). IEEE. 22,， 174 


Shilov，G. (1977). Zear 41gebgra. Dover Books on Mathematics Series. Dover Publications. 27 


Siegelmann, 也 . (1995)，Computation beyond the Turing limit， Science，268(5210)，545-548. 
324 


Siegelmann, 再 . and Sontag, 卫 . (1991). Turing computability with neural nets. 4pplied Ma 妃 e- 
maatics Zetters, 4(06)，77-80. 324 


Siegelmann, 再. 工 . and Sontag, 卫 . D. (1995). On the computational Power of neural nets. .Jour7mzal 
of Comzputer amd 9ystems Sciemnces， 50(1)，132-150. 324, 325, 345 


Sietsma，J. and Dow，R. (1991)，Creating artificial neural networks that generalize. TVeu7ral 
JIVetuuorls, 4(1)，67-79. 207 


Simard, D.，Steinkraus, P. Y., and Platt, J. C. (2003). Best practices for convolutional neural 
networks. In TCD4R22003. 317 


参考 文献 669 


Simard，P. and Graf, 百 . P. (1994)，Backpropagation without multiplication. In 4duances 纪 
Neural 1mnjormatiom Process19g 9Vstems, pages 232-239. 384 


Simard，P.，Victorri， 了 B.，LeCun，Y.，and Denker，J. (1992)，Tangent prop - A formalism for 
specifying selected invariances in an adaptive network. In NIP52771991. 232, 233,，301 


Simard，P. Y.，LeCun，Y.，and Denker，J. (1993)， 王 cient pattern recognition using a new 
transformation distance. In NM7P59292. 232 


Simard, P. Y.,LeCun, Y. A., Denker, J. S., and Victorri, B. (1998). Transformation invariance in 
Pattern recognition 一 tangent distance and tangent Propagation. Zecture Notes ?Comz2Duter 
Oocyemce, 1524. 232 


Simnons, D. J. and Levin, D. 工 . (1998). Failure to detect changes to people during a real-world 
interaction. Psychno7o7nizc 刀 ulletm g6 Reutew, 5(4)，644-649. 463 


Simonyan, K. and Zisserman, A. (2015). Very deep convolutional networks for large-scale image 
recognition. In 7CZR. 275 


Sjoberg，J. and Ljung, 工 . (1995)，Orvertraining, regularization and searching for a minimurm， 
with application to neural networks. 7mptermatiomal Journial of Comtrol, 62(6), 1391-1407. 215 


Skinner, B. 下 . (1958). Reinforcement today. 4mmericam Psychologis 旨 13, 94-99. 279 


Smolensky，P. (1986).， Information processing in dynamical systems: Foundations of harmony 
theory， ID. 卫 . Rumelhart and J. 荆 . McClelland，editors，Paraliel Distributeqd Process170， 
volume 1,，chapter 6, pages 194-281. MIT Press，Cambridge. 486, 499, 561 


Snoek, J., Larochelle, 耳 ., and Adams, R. P. (2012). Practical Bayesian optimization of machine 
learning algorithms. In NZP5720712. 371 


Socher, 及 .，Huang, 卫 . 百 .，Pennington，J.,,， Ng，A. Y., and Manning，C. D. (2011la).， Dynamic 
pooling and unfolding recursive autoencoders for paraphrase detection. In NI7P9522011. 341， 
342 


Socher, R.， Manning，C., and Ng, A. Y. (2011b). Parsing natural scenes and natural language 
with recursive neural networks. In _Proceeqdzmgs of 态 e Toenty- 玫 0j 雪 7ptermatomal Comjeremce 
om Machine Zear7109 (CN 20171). 341 


Socher，R.，Pennington，J.，Huang, 卫 . 再 ，Ng，A. Y.，and Manning，C. D. (2011c).， Semi- 
Supervised recursive autoencoders for predicting sentiment distributions， In EMNZLP220T11 
341，342 


670 参考 文献 


Socher， 了 及 .，Perelygin，A.，Wu,， J. Y.，Chuang, J，Manning，C. D.，Ng，A. Y.，and Potts，C. 
(2013a). Recursive deep models for semantic compositionality over a sentiment treebank. In 
EMNILP22013. 341, 342 


Socher, 及 .，Ganjoo，M.，Manning，C. D., and Ng，A. Y. (2013b).， Zero-shot learning through 
cross-modal transfer. P 227 绞 47Pmaal Comjeremce om Neural 1jorma 友 om Process1729 9Vste7105 
(VIP5 2013). 459 


Sohl-Dickstein,，J.，VWeiss, 卫 . A., Maheswaranathan, N., and Ganguli, $. (2015). Deep unsuper- 


vised learning using nonequilibrium thermodynamics. 610, 611 


Sohn, 上 人., Zhou,，G., and Lee, 再 . (2013). Learning and selecting features jointly with point-wise 
gated Boltzmann machines. In 7CW 22013. 586 


Solomono 引 , R. J. (1989).A system for incremental learning based on algorithmic probability- 
279 


Sontag, 下. D. (1998).， VC dimension of neural networks，V47O 4957 9eries 焉 Computer amad 
oOVste70s cyemnces, 168, 69-96. 467, 470 


Sontag, 卫 . D. and Sussman, 也 . J. (1989). Backpropagation can give rise to spurious local minima 


even for networks without hidden layers， ComzDlez 9Vstems，3,， 91-106. 243 
Sparkes, B. (1996).， 77Pe Red amd 妨 e Black: 9tuaies 记 Greek _ Pottery. Routledge. 1 


Spitkovsky, V. I, Alshawi, 再 ., and Jurafsky,， D. (2010). From baby steps to leapfrog: how“less 


is more”in unsupervised dependency parsing. Im TI70. 279 


Squire, W. and Trapp, G. (1998). Using complex variables to estimate derivatives of real func- 
tions. 9141W Rev, 40(1)，110---112. 373 


Srebro, N. and Shraibman，A. (2005). Rank, trace-norm and max-norm. In Proceedings of 妃 e 


18 雪 4mnmaual Comjerence om Zearmi09 Theory, pages 545-560. Springer-Verlag. 206 


Srivastava,， N. (2013). 7mmproving Veural Netuuorks 用 ? Dropout Master's thesis， U. Toronto. 
456 


Srivastava，N. and Salakhutdinov，R. (2012)， Multimnodal learning with deep Boltzmann ma- 
chines. In NM7P5?2012. 460 


Srivastava, N., Salakhutdinov,，R. R., and Hinton，G. 也 . (2013). Modeling documents with deep 
Boltzmann machines.， a7Xu prep7imt arXYuU:T1309.6865. 566 


参考 文献 671 


Srivastava, N., Hinton,，G., Krizhevsky, A., Sutskever, I, and Salakhutdinov, R. (2014). Droponut: 
A Simple way to Prevent neural networks from overfitting. Journal of Macjpzmne Zear7720 
Researchn， 15,， 1929-1958. 222,， 227,，228,，229,，574 


Srivastava, 及 . 人 .,，Gref, KK., and Schmidhuber, J. (2015). Highway networks. arXzu:1505.00387. 
278 


Steinkrau, D., Simard, P. Y., and Buck, I. (2005). Using GPUs for machine learning algorithms. 
20713 12 坝 mternatiomal Comjerence om Document 47alys1s ad Recoqm 帮 o0，0，1115-1119. 
379 


Stoyanov, V.,，Ropson, A., and Eisner, J. (2011). Empirical risk minimization of graphical model 
Parameters given approximate inference，decoding，and model structure，In Proceedzzgs of 
太 e 14 矶 Tternational Conjerence om 4rtpcial Tteliigence and 9tatistics (4797479)，vol- 
ume 15 of JAMZR Torkshop amd Comjerence Proceeqzqs，pages 725-733，EFort Lauderdale. 
Supplementary material (4 pages) also available. 576, 596 


Sukhbaatar，9.，S$zlam，A.，Weston，J.，and Fergus，R. (2015).， Weakly supervised memory 
Detworks，a7XZu DTep7zm0t a7XYuU:1503.08895. 356 


Supancic，J. and Ramanan，D. (2013). Self-paced jlearning for long-term tracking. In 
CTYPR20713. 280 


Sussillo，D. (2014)，Random walks: Training very deep nonlinear feed-forward networks with 
smart initialization， CoRR, abs/1412.6558. 248, 259, 260, 344 


Sutskever, 工 (2012). Trainzzg Recurrent Newral Vetauorks. Ph.D. thesis, Department of computer 


Science，University of TIoronto. 347,，353 


Sutskever，I. and Hinton，G. 卫 . (2008).， Deep narrow sigmoid belief networks are universal 
apPproximators. Veuwral Computaton,， 20(11)， 2629-2636. 592 


Sutskever, LI and Tieleman, 工 . (2010). On the Convergence Properties of Contrastive Divergence. 
In 47974797?520710. 521 


Sutskever, [Hinton，G.,， and Taylor，G. (2009). The recurrent temporal restricted Boltzmann 
Iachine. In NM17P9572008. 585 


Sutskever，[I，Martens，J.，and Hinton，G. 卫 . (2011)，Generating text with recurrent neural 
Detworks. In TCM 20171,， pages 1017-1024. 406 


Sutskever, 工 Martens, J.,, Dahl, G., and Hinton，G. (2013). On the importance of initialization 
and momentum in deep learning. In 7CIZ. 256, 347,， 353 


672 参考 文献 


Sutskever，[，Vinyals，O.，and Le，Q. V. (2014).，S$equence to sequence learning with neural 
Detworks. In NI7P95?2014，arXiu:1409.3215. 23,， 89, 338, 349, 351, 403 


Sutton, R. and Barto,，A. (1998). Reimnjforcement Learnizmg: 4m 7Tptroductomn. MIT Press. 93 


Sutton,，R. 9.，Mcallester, D.，Singh, $., and Mansour,，Y. (2000). Policy gradient methods for 
reinforcement learning with function approximation. In NM7ZP952”1999, pages 1057---1063. MIT 
Press. 590 


Swersky, 上 ., Ranzato, M., Buchman, D., Marlin, B., and de Freitas, N. (2011). On autoencoders 
and score matching for energy based models. In 7TCWT 2011. ACM. 438 


Swersky,， 开 .，Snoek, J.，and Adams, 及 . P. (2014)，EFreeze-thaw Bayesian optimization. arX?zu 
D7eDp7VTt QrXTU:1406.3896. 371 


Szegedy，C.，Liu，W.，Jia，Y.，Sermanet，P.，Reed，8$.，Anguelov，D.，Erhan，D.，Van- 
houcke, V., and Rabinovich，A. (2014a). Going deeper with convolutions. Technical report， 
aIXiv:1409.4842. 20, 21,， 174, 222, 231,， 278, 295 


Szegedy, C.，Zaremba, W., Sutskever, [I.，Bruna, J.,， Erhan, D., Goodfellow, [. J., and Fergus, 及 . 
(2014b). Intriguing properties of neural networks. 7TC7R, abs/1312.6199. 230, 233 


Szegedy, C., Vanhoucke, V., Ioffe, $., Shlens, J., and Wojna, Z. (2015). Rethinking the Inception 
Architecture for Computer Vision. 47rXiu e-p7imt1. 209,，275 


Taigman，Y.，Yang，M.，Ranzato，M.，and Wolf, 工 . (2014). DeepEace: Closing the gap to 


human-level performance in face verification. In CTYPR220714. 88 


Tandy, D. W. (1997). TYorks and Days: 4 Translation and Commmentary for 态 e 9ocial 9ciemnces. 


University of Cajlifornia Press. 1 


Tang, Y. and Eliasmith，C. (2010). Deep networks for robust visual recognition. In Proceedyngs 
oO1 刀 e 29 雪 71ptermatiomal Comjerence om Macjhine Pearm179，JUTe 21-24，20710,， az1a，7srae1. 
207 


Tang, Y., Salakhutdinov,，R.,， and Hinton，G. (2012). Deep mixtures of factor analysers，aTrXzv 
DTeDp7dTt QrXTU:1206.4635. 417 


Taylor，G. and Hinton，G. (2009).， Factored conditional restricted Boltzmann Imachines for 
modeling motion style， In 工 . Bottou and M. Littman，editors，Proceedzgs of 如 e Tenty- 
51 坝 Jpternatiomal Comjerence om Macjhine Zearning UTCWT509) pages 1025-1032,， Montreal， 
Quebec,， Canada. ACM. 585 


参考 文献 673 


Taylor,，G.，Hinton，G. 卫 ., and Roweis, $. (2007). Modeling human motion using binary latent 
variables. In B. Scholkopf, J. Platt, and 工 . Hoffman, editors,， 4duamces 各 Neural 7mjforma 友 om 
Processing 9ystems 19 CUVIPS106) pages 1345-1352. MIT Press，Cambridge, MA. 585 


Teh, Y.，Welling，M.,，Osindero, S$., and Hinton，G. 也 . (2003). Energy-based models for sparse 


overcomplete representations， .ouw77al oj Machpzmne Zear7ni70 忆 esearch 4, 1235-1260. 419 


Tenenbaum，J.，de Silva, V.，and Langford，J. C. (2000)，A global geometric framework for 
nonlinear dimensionality reduction. Science, 290(5500), 2319-2323. 141, 443, 456 


Theis, 工 .，van den Oord，A.,， and Bethge，M. (2015).，A note on the evaluation of generative 
models. arXiv:1511.01844. 596, 613 


Thompson，J.，Jain，A.，LeCun,，Y.,， and Bregler，C. (2014).， Joint training of a convolutional 
network and a graphical model for human pose estimation. In NI7P5220714. 306 


Thrun, S. (1995). Learning to Play the game of chess. In N7P571994. 232 


Tibshirani, 有 . J. (1995). Regression shrinkage and selection via the lasso. Journal of 态 e 已 oya/ 
Ootatistiical 9ociet 妈 万 58,，267-288. 204 


Tieleman， 工 . (2008)， Training restricted Boltzmann machines using approximations to the 
likelihood gradient. In TCM 2008, pages 1064-1071. 521 


Tieleman, 工 and Hinton，G. (2009). Using fast weights to improve persistent contrastive diver- 
gence. In TCM 2009. 524 


Tipping, M. 卫 . and Bishop，C. M. (1999). Probabilistic Principal components analysis， .Jou7rmal 
of 万 e Royal 9tatistical 9ociet 妈 妃 , 61(3)，611-622. 419 


Torralba, A., Fergus, R., and Weiss, Y. (2008). Small codes and large databases for recognition. 
In Proceeaqings of 雪 e Computer Yisiomn ad Patterm Recogni 放 om Comnjerence (CTPR08) pages 
1-8. 448 


Touretzky，D. 9. and Minton，G. 卫 . (1985)，Symbols among the neurons: Details of a con- 
Dectionist inference architecture. In Proceeqimngs of 刀 e 9 雪 Ttermnatiomal Jotnt Comjeremce o7 
4rtiFczal ntelligence - Volume 1 IJCALT85, pages 238-243, San Francisco, CA, USA. Morgan 


玫 aufmann Publishers Inc. 15 


Tu, K. and Honavar,，V. (2011). On the utility of curricula in unsupervised learning of proba- 
bijlistic grammars. In 7T7JC47720711. 279 


Turaga,， 39. C.，Murray, J. 上 .，Jain，V.，Roth, 了.，Helmstaedter，M.，Briggman, 天.，Denk，VV ,， 
and Seung, 再 . $. (2010)，Convolutional networks can learn to generate afEnity graphs for 


image segmentation. Neuwral CommDputa 友 om，22, 511-538. 306 


674 参考 文献 


Turian，J.，Ratinov, 工 .，and Bengio,Y. (2010)，Word representations: A simple and general 
method for semi-supervised learning. In Proc. 4C7 20710, pages 384-394. 455 


Toscher，A.，Jahrer，M., and Bell, R. M. (2009). The BigChaos solution to the NetHix grand 
Prize. 408 


Uria，B.，Murray, 工 , and Larochelle, 瑟 . (2013). Rnade: The realL-valued neural autoregressive 
density-estimator. In NI7P9?2013. 605, 606 


van den O6rd,，A.,， Dieleman, 9.，and Schrauwen,，B. (2013). Deep content-based music recom- 
Imendation. In NI7P9?2013. 408 


van der Maaten, 工 . and Hinton, G. 卫 . (2008). Visualizing data using t-SNE. ]. Machine Zearmnzmag 
Res.，9. 406, 443 


Vanhoucke, V., Senior, A., and Mao, M. 2Z. (2011). Improving the speed of neural networks on 
CPUSs. Im Proc. Deep Zear71g azd UVUmsuperuised Feature Lear7i709 NIP9 orKshop. 378,， 384 


Vapnik,，V. N. (1982).， Estimationm of _ Dependences Based om PEmpirical Data.， Springer-Verlag， 
Berlin. 100 


Vapnik, V. N. (1995). 7pe Nature of 9tatistical Pearnimg Theory. Springer, New York. 100 


Vapnik, V. N. and Chervonenkis, A. Y. (1971). On the uniform convergence of relative frequen- 
cies of events to their probabilities，7TPpeory of Propabzlity and 7ts 4pplications， 16,，264-280. 
100 


Vincent，P. (2011)，A connection between score matching and denoising autoencoders， TVeural 
Computaton, 23(7). 438, 439, 440,， 608 


Vincent, P. and Bengio, Y. (2003). Manifold Parzen windows. In NTP5;”2002. MIT Press. 444 


Vincent, P., Larochelle, 再, Bengio, Y., and Manzagol, P.-A. (2008a). 了 Extracting and composing 
robust features with denoising autoencoders. In ICM ( 1la), pages 1096-1103. 207 


Vincent, P., Larochelle, 吾 ., Bengio, Y., and Manzagol, P.-A. (2008b). Extracting and composing 
robust features with qdenoising autoencoders. In TCM 2008. 440 


Vincent, P., Larochelle, 了 责 ., Lajoie, I., Bengio, Y., and Manzagol, P.-A. (2010). Stacked denois- 
ing autoencoders: Learning useful representations in a deep network with a local denoising 


criterion. .1/. MacAhimne Zearmz129 及 es.，11. 440 


Vincent，P.，de Brebisson，A.，and Bouthillier，X. (2015)， 卫 得 cient exact gradient update for 
training deep networks with very large sparse targets. In C. Cortes, N. D. Lawrence, D. D. Lee， 
M. Sugiyama，and R. Garnett，editors，4duamces 记 Neuwyral 17jormza 友 om Process1m9 9Vstem2s 
28, pages 1108-1116. Curran Associates, Inc. 396 


参考 文献 675 


Vinyals, O., Kaiser, 工 ., Koo, 工 ., Petrov, $., Sutskever, [I. ,and Hinton，G. (2014a). Grammar as 
a foreign language. a7X?u DTeDp7U0t a7XYU:1AT2.7449. 349 


Vinyals，O.，Toshev，A.，Bengio，$.，and Erhan，D. (2014b).， Show and tell: a neural image 
caption generator. arXiv 1411.4555. 349 


Vinyals，O.，Eortunato，M.，and Jaitly，N. (2015a). Pointer networks. arXzu preprznt 
a7XYU:1506.03134. 356 


Vinyals，O.，Toshev，A.，Bengio，$.，and Erhan，D. (2015b)， Show and tell: a neural image 
caption generator. In CTYPR72015. arXiv:1411.4555. 90 


Viola,P. and Jones, M. (2001). Robust real-time object detection. In 7Tptermazozzal .Jour7zal oF 
Co7mzDuter Y7siom.， 382 


Visin, 上 .Kastner, 下 .，Cho, 民 .，Matteucci， M.，Courville，A.，and Bengio, Y. (2015).， ReNet: 
A_ recurrent neural network based alternative to convolutional networks. arXzuw Dreprzmt 
aTXY1U:1505.00393. 338 


Von Melchner,， 工 .，Pallas，$. 工 .，and Sur，M. (2000).，Visual behaviour mediated by retinal 
projections directed to the auditory pathway.， Vature, 404(6780),， 871-876. 14 


Wasger，$.，Wang，9.，and Liang，P. (2013).， Dropout training as adaptive regularization.， JIn 
4duvamces 纪 Neural 1mjormatiom Process119g 9ystemls 26, pages 351-359. 228 


Waibel, A., Hanazawa, 工 ., Hinton，G. 也., Shikano, 人 ., and Lang, 开 . (1989). Phoneme recogni- 
tion using time-delay neural networks， 71 甩 BP Tyamsac 帮 0o705 07 4cous 友 cs，9Deech，a7d 5797201 
Process170，37,， 328-339. 319, 386, 390 


Wan, 工 .，Zeiler，M.，Zhang，S.，LeCun，Y.，and Fergus, R. (2013)，Regularization of neural 
networks using dropconnect. In 7CW 2013. 229 


Wang, S. and Manning，C. (2013). Fast dropout training. In TCM 2013. 228 


Wang, Z., Zhang, J., Feng, J.,, and Chen, 2Z. (2014a). 人 Knowledge graph and text jointly embed- 
ding. In Proc. BEAMNIP22014. 411 


Wang, Z., Zhang, J.,, Feng, J., and Chen, 2. (2014b). 人 Knowledge graph embedding by translating 
on hyperplanes. In Proc. 444772014. 412 


Warde-Farley D., Goodfellow, I. J., Courville, A., and Bengio, Y. (2014). An empirical analysis 
of dropout in piecewise linear networks. In ICL ( 1). 225,，228, 229 


Wawrzynek，J.，Asanovic, 人 .Kingsbury，B.，Johnson，D.，Beck，J.，and Morgan，N. (1996). 
Spert-II: A_ vector microprocessor system.， Co7mmzputer， 29(3),，79-86. 384 


676 参考 文献 


Weaver, 直 . and Tao, N. (2001). The optimal reward baseline for gradient-based reinforcement 
learning. In Proc. U472001,， pages 538-545. 590 


Weinberger，K. Q. and S$aul, 工 . 基 . (2004a). Unsupervised learning of image manifolds by 
semjidefinite programming， In Proceeqdyzgs of 轨 e Commputer Visiom ad Patterm 已 ecog75o7 
Comjerence (CTVPRI0Y) volume 2, pages 988-995,， Washington D.C. 141 


Weinberger， 下 . Q. and Saul, 工 . 人 . (2004b). Unsupervised learning of image manifolds by 
semjidefinite Programming. In CTVPR2004，pages 988-995. 443 


Weiss, Y.，Torralba, A., and Fergus,，R. (2008). Spectral hashing. In NIP5, pages 1753-1760. 
448 


Welling, M.，Zemel, R. $., and Hinton，G. 卫 . (2002). Self supervised boosting. In 4duances 纪 
Neuwral 1mjormatiom Processyng 9ystems, Pages 665-672. 600 


Welling, M.， Hinton，G. 卫 ., and Osindero, S. (2003a). Learning sparse topographic representa- 
tions with products of Student-t distributions. Im N7P972002. 581 


Welling，M.，Zemel，R.，and Hinton，G. 也. (2003b)，Self-supervised boosting，JIn S. Becker， 
S. Thrun，and 开 . Obermayer，editors，4dvua7zces 记 Neuyral 1mzjformatiom Process1729 9Vstem2s 
15 (MIP502) pages 665-672. MIT Press. 531 


Welling, M., Rosen-Zvi, M., and Hinton，G. 卫 . (2005). 了 xponential family harmoniums with an 
application to information retrieval， In L. Saul, Y. Weiss, and 工 . Bottou， editors，4duwamces 
2 Neural 7mjormatiom Processing 95ystems 17 (VIP59204) volume 17，Cambridge， MA. MIT 
Press. 578 


Werbos, P. J. (1981). Applications of advances in nonlinear sensitivity analysis. In Proceedzngs 
of 态 e 10 坝 TFTIP Comjerence, 31.8 - 19，NYC, pages 762-770. 194 


Weston, J., Bengio, $., and Usunier, N. (2010). Large scale image annotation: learning to rank 


with joint word-image embeddings. Machine Zearnimg, 81(1)， 21-35. 343 


Weston，J，Chopra，8S.，and Bordes，A. (2014).， Memory networks.， arXiu Dreprznt 
a7X1u:1410.3916. 356, 412 


Widrow，B. and Hoff，M. 卫 . (1960). Adaptive switching circuits，、 Im 1960 7 有 忆 B9CON 
Co7mve7 龙 om 尺 ecord, volume 4 pages 96-104. IRE, New York. 13,，18,，20, 21 


Wikipedia (2015)，List of animals by number of neurons 一 Wikipedia, the free encyclopedia. 
[Online; accessed 4-March-2015]. 20, 21 


参考 文献 677 


Williams，C. K. I. and Agakov, FE. V. (2002).， Products of Gaussians and Probabijlistic Minor 
Component Analysis. Neural Computatiom, 14(5)，1169-1182. 582 


Williams, C. K. I. and Rasmussen, C. 卫 . (1996). Gaussian processes for regression. In D. Touret- 
ZKy, M. Mozer, and M. Hasselmo, edqitors, 4qduamces 各 Neuwral 1mnjormza 友 om Process?729g 9Vste7105 
83 (VIP9;05) pages 514-520. MIT Press, Cambridge, MA. 124 


Williams, 及 . J. (1992). Simple statistical gradient-following algorithms connectionist reinforce- 
ment learning. Machnzmne Zear7i7009，8，229-256. 588，589 


Williams, R. J. and Zipser, D. (1989). A learning algorithm for continually running fully recur- 
ITent neural networks， Neuwral Comzputation, 工 270-280. 192 


Wilsgon, D. R. and Martinez, 工 . 及 . (2003). 工 he general ine 生 ciency of batch training for gradient 
descent learning. Neuwral VetuuorKs, 16(10)，1429-1451. 239 


Wilson, J. R. (1984). Variance reduction techniques for digital simnulation. 47nzerycam .Jour7al oF 
Mathematical ad Mamagement Sciences, 4(3)，277---312. 589 


Wiskott, 工 . and Sejnowski, 工 . J. (2002). Slow feature analysis: Unsupervised learning of invari- 
ances， Neuwral Computaion，14(4)，715-770. 421,，422 


Wolpert, D. and MacReady, W. (1997). No free lunch theorems for optimization， 7 五 忆 忆 TYyrams- 
ac 万 0o7.5 07. 已 0 已 友 oa7V Com2Dutatom, 工 67-82. 250 


Wolpert,，D. 瑟 . (1996)，The lack of a priori distinction between learning algorithms.，Veuwra/ 
Compautatiom， 8(7)，1341-1390. 102 


Wu R.，Yan，9.，Shan,，Y.，Dang，Q.，and Sun，G. (2015)，Deep image: Scaling up image 
recognition. arXiv:1501.02876. 381 


Wu 2. (1997).， Global continuation for distance geometry Problems.， .514M Journal of Op 妇 - 
7072010702，7，814-836. 279 


Xiong, 再 . Y., Barash, Y., and Frey, B. J. (2011). Bayesian prediction of tissue-regulated splicing 
using RNA sequence and cellular context. Biozmjormatics, 27(18)，2554-2562. 228 


Xu, 下 ., Ba, J. 工 ., Kiros, R., Cho, K., Courville, A., Salakhutdinov, 及., Zemel, R. S., and Bengio， 
Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. In 
7TCW 2015 arXyu:1502.03044. 90,， 349,， 591 


Yildiz, I. B.，Jaeger, 了 ., and Kiebel, $. J. (2012)，Re-visiting the echo state Property，Veura/ 
metuUo7ks, 35,，1-9. 346 


678 参考 文献 


Yosinski, J.,, Clune, J.,,， Bengio, Y., and Lipson, 也 . (2014). How transferable are features in deep 
neural networks? In MI7P9 27, pages 3320-3328. Curran Associates, Inc. 277, 456 


Younes, 工 . (1998). On the convergence of Markovian stochastic algorithms with rapidly decreas- 


ing ergodicity rates. In 9tochastcs and 9tochastiics Models, pages 177-228. 521 


Yu D.，Wang, $., and Deng, 工 . (2010). Sequential labeling using deep-structured conditional 
Irandom fields. 7EEP yovrmal of 5elected Toptcs 记 97970Q1 Process110g. 276 


Zaremba，W. and Sutskever, I. (2014). Learning to execute. arXiv 1410.4615. 280 


Zaremba，W. and Sutskever，I. (2015). Reinforcement learning neural Turing machines，. 
arX1u:1505.00521. 358 


Zaslavsky, 工 . (1975). Facing DVPp to 47rramgements: Face-Count Formaulas Jor Partitions oj 9pace 
204 五 yperplanes. Number no. 154 in Memoirs ofthe American Mathematical Society. American 


Mathematical Society. 469 


Zeiler, M. D. and Fergus, R. (2014). Visualizing and understanding convolutional networks. In 
刁 CCTY2T4. 5 


Zeiler，M. D.，Ranzato，M.，Monga，R.，Mao，M.，Yang, 开 .，Le，Q.， Nguyen，P.，Senior，A.， 
Vanhoucke，V.，Dean，J.，and Hinton，G. 卫 . (2013)， On rectifed linear units for speech 
Processing. In 7TC4559P 2013. 391 


Zhou, B., KKhosla, A., Lapedriza, A., Oliva, A., and Torralba, A. (2015). Object detectors emerge 
in deep scene CNNS. ICLR:2015, arXiv:1412.6856. 470 


Zhou, J. and Troyanskaya, O. G. (2014). Deep supervised and convolutional generative stochastic 


Detwork for protein secondary structure prediction. In TCM 20714. 610 


Zhou Y. and Chellappa,， 有 R. (1988).， Computation of optical How using a neural network， Im 
Veural NetuorKs，1988.，1PHFPE 1mternatiomal Comjerence om pages 71-78. IEEE. 290 


Z6ohrer, M. and Pernkopf, FE. (2014). General stochastic networks for classification. In N7P52?2014. 
610 


术语 


绝对 值 整流 absolute value rectification 167, 172,， 173 

准确 率 accuracy 91, 360, 372-375 

声学 acoustic 392 

激活 函数 activation function 147, 245,，257,，258, 260, 271-273,，277,， 278 
AdaGrad AdaGrad 261, 262 

对 抗 adversarial 464 

对 抗 样本 adversarial example 230, 231 

对 抗 训练 adversarial training 230, 231, 233, 474 

几乎 处 处 almost everywhere 64 

几乎 必然 almost sure 114 

几乎 必然 收敛 almost sure convergence 114 

选择 性 剪接 数据 集 alternative splicing dataset 456 

原始 采样 Ancestral Sampling 494, 495,， 507, 513, 557， 565，569, 591, 606, 610 
退火 重要 采样 annealed importance sampling 533-537, 566，571, 612 
专用 集成 电路 application-specific integrated circuit 384 
近似 贝 叶 斯 计算 approximate Bayesian computation 611 

近似 推断 approximate inference 490, 497, 499, 539-542, 556-558 

架构 architecture 170 


人 工 智 能 articial intelligence 1-4,，6-10，16,， 17,，21, 47, 49,，136,，138,， 141,，279,，362,， 377,，385， 
411, 416, 444, 462, 471, 472, 476, 614 


人 工 神经 网 络 artificial neural network 12, 13,，20, 21, 377 
渐 近 无 偏 asymptotically unbiased 109 
679 


680 术语 


异步 随机 梯度 下 降 Asynchoronous Stochastic Gradient Descent 380 
异步 asynchronous 240 
注意 力 机 制 attention mechanism 313, 339, 358, 382, 383, 404, 405, 596 


属性 attribute 411 





自 编码 器 autoencoder xv, 4, 20, 21, 169, 233, 234, 245,， 260, 293, 301-303, 322, 373, 420, 425， 
426，428-442，445-448，450，452，453，464,， 474,，514，521，528，551，558，595，596，601， 


606-608 
自动 微分 automatic differentiation 191 


自动 语音 识别 Automatic Speech Recognition 390, 391 


自 回归 网 络 auto-regressive network 592, 602, 603, 605, 606 


反 向 传播 back propagate 425 

反 向 传播 back propagation 147,，175, 406, 429, 530, 560, 575-577，585-588，592, 594-596, 610 
回 退 back-off 478 

反 向 传播 backprop 153,， 176, 181, 182, 185, 187, 188, 384, 385 

通过 时 间 反 向 传播 back-propagation through time 326-328,，586 

反 向 传播 backward propagation 257-259, 271, 326, 328, 329, 345-347, 354, 355，358 
词 袋 bag of words 401 

Bagging bootstrap aggregating 220-222,，224, 225,， 229 

bandit bandit 409 

批量 batch viii, 237-239, 251-253, 256, 261,， 273 

批 标 准 化 batch normalization 230, 271-273, 362, 455,， 456 

贝 叶 斯 误差 Bayes error 102, 103, 360 

贝 叶 斯 规则 Bayes' rule 63,， 64,，119, 463, 465,， 535 

贝 叶 斯 推断 Bayesian inference 87, 121，122, 450 

贝 叶 斯 网 络 Bayesian network 480, 483, 496, 566 

贝 叶 斯 概率 Bayesian probability 49 

贝 叶 斯 统计 Bayesian statistics 118 

基准 bechmark 106, 360 

信念 网 络 belief network 21, 480, 592, 603 

Bernoulli 分 布 Bernoulli distribution 56, 61, 157-159, 369, 435, 548,，570, 573, 593 


术语 681 


基准 baseline 362, 363, 375 
BEFGS BFGS 270 


偏 置 bias in affine function 96，199,，202,， 243，257，260, 326,，334, 350-354, 371,，396,， 408,，546， 
547，559，564, 565,， 567,，571,，572，575，579,， 580,，582, 585 


偏差 bias in statistics 197, 198, 265, 400 

有 偏 biased 240, 248 

有 偏重 要 采样 biased importance sampling 400, 505 
偏差 biass 114 

二 元 语法 bigram 393, 400 

二 元 关系 binary relation 410 

二 值 稀疏 编码 binary sparse coding 546-551 

比特 bit 66 

块 坐 标 下 降 block coordinate descent 274 

块 吉 布 斯 采样 block Gibbs Sampling 500, 510, 563 
玻 尔 效 曼 分 布 Boltzmann distribution 485 


玻 尔 效 曼 机 Boltzmann Machine 248, 260, 293, 485, 486, 500, 513,，520,， 559-561，567，571，575， 
576,，578，579, 584-586,， 596, 607 


Boosting Boosting 222,，229 

桥 式 采样 bridge sampling 533, 536, 537 

广播 broadcasting 29 

磨合 Burning-in 509, 518-520, 522，523,，571,，573 


变 分 法 calculus of variations 155，156，544, 545，551，554,， 555 


容量 capacity 98, 99, 101, 104, 106, 114, 215，222,，237,，359,，364-367,，381, 382, 394, 401, 402， 
430, 431, 433,， 434,， 436,， 440, 441,， 470,，523,，528 


级 联 cascade 382, 384 

灾难 遗忘 catastrophic forgetting 168 
范畴 分 布 categorical distribution 56, 369 
因果 因子 causal factor 466, 470, 472, 473 
因果 模型 causal modeling 53 

中 心 差 分 centered difference 373 


682 术语 


中 心 极 限定 理 central limit theorem 58，504 

链 式 法 则 chain rule 53, 76, 525 

混沌 chaos 258 

弦 chord 492, 493 

弦 图 chordal graph 493 

梯度 截断 clip gradient 164 

截断 梯度 clipping the gradient 353 

clique 482-486, 491-494, 496, 497, 539, 543,， 565 

团 势 能 clique potential 482, 484, 485 

闭 式 解 closed form solution 206, 420, 422 

级 联 coalesced 379, 383 

编码 code 429_431, 433_435, 445， 447, 448 

协同 过 滤 collaborative filtering 407, 408 

列 column 28 

列 空间 column space 33 

共 因 common cause 489 

完全 图 complete graph 491 

复杂 细胞 complex cell 312 

计算 图 computational graph 176, 247, 320-322, 328-330, 341, 355,， 498,， 576, 596,， 603 
计算 机 视觉 Computer Vision 218, 363, 377, 384-386, 389, 421, 470 
概念 漂移 concept drift 457,， 458 

条 件 计算 conditional computation 382 

条 件 概率 conditional probability 52, 53, 64，69，524 

条 件 独 立 的 conditionally independent 53, 418, 481, 487, 488, 492 
共 斩 conjugate 268 

共 斩 方 向 conjugate directions 267 

共 恩 梯度 conjugate gradient 267-270 

联结 主义 connectionism 12，13, 15, 16, 19, 377, 559 

一 致 性 consistency 114 

约束 优化 constrained optimization 82，83, 85，220, 485 


术语 683 


特定 环境 下 的 独立 context-specific independences 488 

contextual bandit contextual bandit 409, 410 

延 拓 法 continuation method 278,，279 

收缩 contractive 346,，445-447 

收缩 自 编码 器 contractive autoencoder 434, 438, 440, 442,， 445, 446, 606,， 607 


对 比 散 度 contrastive divergence 248, 438,，519-523，527,，529，564，565，571，574，575，580-582， 
586,， 608 


凸 优化 _Convex optimization 82,，241-243, 261, 274 
卷 积 convolution 281, 282, 450, 499 

卷 积 玻 尔 效 曼 机 Convolutional Boltzmann Machine 293 
卷 积 玻 尔 效 曼 机 convolutional Boltzmann machine 584 
卷 积 网 络 convolutional net 472 


卷 积 网 络 convolutional network 20, 21, 144, 175, 242, 246, 281, 282, 285, 287, 288, 290, 293-297， 
299, 301, 302, 304, 306-314, 317-319, 337, 338, 360, 362, 363, 375, 379, 391, 395, 402, 403， 
408, 456, 469, 470, 583，584, 594, 601, 604 


卷 积 神经 网 络 convolutional neural network 145, 218, 229, 281, 284, 285, 290, 295, 306 
坐标 上 升 coordinate ascent 541,，543，572 

坐标 下 降 coordinate descent 274 

共 父 coparent 539， 547 

相关 系数 correlation 55 

代价 cost 119, 134, 243-246, 248, 252, 257, 360, 361, 365, 370, 455,， 506 


代价 函数 cost function 26, 74,， 76, 78, 87, 104, 115, 116, 132-134,， 152, 201, 203，204,， 208,， 209， 
214, 215, 231, 235-237, 242-249, 251, 252, 255, 269, 271, 272, 274, 275, 278, 279, 353, 360， 
365, 375, 413, 421, 423, 433, 437, 438, 453, 465,， 506, 524, 575, 588, 601 


协 方差 covariance 55, 60, 202, 220, 427 

协 方差 矩阵 covariance matrix 55,， 58, 60,，418, 427 
协 方差 RBM covariance RBM 580, 581 

履 盖 coverage 361, 375 


准则 criterion 74, 210, 251, 254,，256,， 262-265,， 267, 269, 322, 327, 345, 401, 435, 437-439, 446， 
447,，575，586, 594，596, 608, 610 


临界 点 critical point 74-77，79-82,，242-245,，249, 250, 266, 453, 551，553 


684 


临界 温度 _ critical temperatures 514 

互相 关 函 数 cross-correlation 283 

交叉 业 cross-entropy 68, 116, 153-156, 189-191, 194, 330, 333,， 396, 397 
累积 函数 cumulative function 504 

课程 学 习 _ curriculum learning 279, 280, 327 

维 数 灾难 curse of dimnensionality 135, 136,， 138, 394, 395,， 468, 473, 603 
曲率 curvature 78-81, 99, 201, 242, 253，266 

控制 论 cybernetics 12, 13 


衰减 damping 551 

数据 生成 分 布 data generating distribution 97, 236, 240, 241, 251 
数据 生成 过 程 data generating process 97, 449 

数据 并 行 data parallelism 380 

数据 点 data point 92 


数据 集 dataset 87, 92-95, 97, 98, 101, 104, 106, 107, 113-115, 118, 119, 125, 128, 131, 133， 


141 
数据 集 增 强 dataset augmentation 386, 389 
决策 树 decision tree 125, 127, 382-384, 466 





解码 器 decoder 4, 338, 339, 402-404, 417, 420, 421, 423-427, 429-431, 434_436, 439-441， 


469，595 
分 解 decompose 38 


深度 信念 网 络 deep belief network 17,， 21, 310, 452, 472，520,， 536,，538，562，564-566,， 568， 


572，584，591, 609 


深度 玻 尔 效 曼 机 Deep Boltzmann Machine xiv，20, 21，452，513，520，523，526，527，538， 


551，557，562, 564,，566-577,，584, 609 
深度 回路 deep circuit 472 
深度 前 馈 网 络 deep feedforward network 145, 147, 391, 417, 428 
深度 生成 模型 deep generative model 452 


混 


496-499,， 501,，506, 507, 510,，516, 518,，521,，526,，538，539, 542,， 543,， 555 


深度 学 习 deep learning 1, 4_7,， 10-15, 17,， 18, 22_24, 26，73，74, 76，79，82,， 87-89, 92,， 93， 
105, 125, 128, 132, 133, 135-138, 141, 144, 197, 198, 210-212, 230, 235, 237, 239, 248， 
256，261，262，266，269，270,， 275，345，358，362，364, 371, 374, 377,，379, 381, 383- 
390-392，407，408,， 410,，412,，415，416，444,，448，456,，458,，462,，466,，472，474-476， 


术语 


134， 


447， 


569， 


539， 


100， 
251， 
386， 
484， 


术语 685 


深度 模型 deep model 93, 235, 236, 241, 243, 245, 257, 263, 277, 452，522，526 
深度 网 络 deep network 144, 211, 258, 272, 278, 471 

信任 度 degree of belief 49 

去 品 denoising 90, 92,，433, 437, 438, 440, 445, 476,，528 


去 噪 自 编 码 器 denoising autoencoder xv，207, 433, 434, 436-440, 442, 445,，454，457，588, 606-- 
611 


去 噪 得 分 匹配 denoising score matching 438，528 

依赖 dependency 474, 476, 488, 492, 496 

深度 depth 145 

导数 derivative 74, 76, 77, 81, 86 

描述 description 70 

设计 和 矩阵 design matrix 93-95,， 129 

细致 平衡 detailed balance 608 

探测 级 detector stage 290 

确定 性 deterministic 238 

对 角 和 矩阵 diagonal matrix 36 

微分 暗 differential entropy 67，552 

微分 方程 differential equation 255 

降 维 dimensionality reduction 406,，429, 448 

Dirac delta 函数 Dirac delta function 59 

Dirac 分 布 dirac distribution 59, 60，528,， 542, 543,， 553，554 

有 向 directed 69 

有 向 图 模型 directed graphical model 331, 334, 418, 462, 480-482, 491, 494, 495,， 591, 603 

有 向 模型 Directed Model 481, 482, 485,， 488, 490-492, 495, 507, 538,，557,，565,，566，594 

方向 导数 directional derivative 76，77 

判别 RBM discriminative RBM 453 

判别 器 网 络 qiscriminator network 597 

分 布 式 表 示 distributed representation 16,，138,， 228, 394-396, 404, 406-408, 410-412,，444,，449， 
459, 466-471, 473,， 498,， 499 

深度 神经 网 络 DNN 247,， 261, 262, 265, 271, 273, 381, 384, 391, 450-453, 471，566 

领域 自 适 应 domain adaption 457 


686 术语 


点 积 dot product 30, 35, 123, 124 

双 反 向 传播 double backprop 233, 474 

双重 分 块 循环 和 矩阵 doubly block circulant matrix 284, 307 
降 采 样 downsampling 293,， 298 


Dropout Dropout 208, 222-230, 252, 257, 362, 364, 366, 367, 381, 383, 391, 455, 456,， 574,，576， 
588, 600 


Dropout Boosting Dropout Boosting 229 
d- 分 离 d-separation 488, 490 
动态 规划 dynamic programming 188 


动态 结构 dynamic structure 382,383 


提前 终止 early stopping 212-217, 237, 258, 362, 454, 455 
回声 状态 网 络 echo state network 21, 345-348 

有 效 容量 effective capacity 100 

特征 分 解 eigendecomposition 37-39 

特征 值 eigenvalue 37 

特征 向 量 eigenvector 37 

基本 单位 向 量 elementary basis vectors 485 
元 素 对 应 乘积 element-wise product 30 

散 入 embedding 442, 443 

经 验 分 布 empirical distribution 59, 60, 236,，238,，528 
经 验 频率 empirical fredquency 59 

经 验 风险 empirical risk 236 


经 验 风 险 最 小 化 empirical risk minimization 236,， 237 





编码 器 encoder 4, 338, 339, 402-404, 421, 424-427, 429-432, 434_440, 442, 443, 445,， 447, 451， 
558，595，596 


端 到 端的 end-to-end 359, 362, 363, 374, 392, 496 
能 量 函 数 energy function 485, 486, 499, 500, 511,， 518, 559-561,， 566, 567, 575，578-583,， 586 


基于 能 量 的 模型 Energy-based model 485-487, 499, 506, 507, 510, 511, 513, 514,，559,， 561，566， 
583 


集成 ensemble 197,， 220-223, 225-227, 229, 381, 402, 450 


术语 9 


集成 学 习 ensemble learning 420 
轮 epoch 242, 374 
轮 数 epochs 213 
等 式 约 束 equality constraint 83, 84 
均衡 分 布 Equilibrium Distribution 508,， 509 
变 equivariance 286 
等 变 表 示 equivariant representations 285 
误差 条 error bar 103 
误差 函数 error function 74 
误差 度量 error metric 359, 360 
错误 率 error rate 91, 360, 361, 366 
估计 量 estimator 108-115,， 197, 456, 468,，520,， 523 
欧 几 里 得 范 数 Euclidean norm 34 
欧 拉 - 拉 格 朗 日 方程 Euler-Lagrange Equation 552 
证 据 下 界 evidence lower bound 539, 540，543,， 544,， 548，565 


样本 example 13，23，88,， 90-95,，97,，99,，100,，102，106,，107，109, 110, 112-119, 123-125，128， 
129, 131-133, 135-138, 141, 210 


额外 误差 excess error 252, 256 

期 望 expectation 54， 56 

期 望 最 大 化 expectation maximization 419, 541-544,，595 
也 步 expectation step 541 

期 望 值 expected value 54 

经 验 experience, 也 87,， 88, 92, 94, 95 

专家 网 络 expert network 383 

相 消 解释 explaining away 538, 550, 565 

相 消解 释 作 用 explaining away effect 489 

解释 因子 explanatory factort 463, 471, 473, 474 
梯度 爆炸 exploding gradient 248 

利用 exploitation 409, 410 

探索 exploration 409, 410 


688 术语 


指数 分 布 exponential distribution 58 


因子 factor 482-484, 486, 493, 494, 559, 585 

因子 分 析 factor analysis 418, 420, 426 

因子 图 factor graph 493, 494 

因子 factorial 417, 425, 426, 501，544, 551,，562,，563,， 568, 569 
分 解 factorization 69, 70 

分 解 的 factorized 474 

变 差 因素 factors of variation 4, 6, 173, 470, 472, 473 

快速 Dropout fast dropout 228 

快速 持续 性 对 比 散 度 fast persistent contrastive divergence 524 
可 行 feasible 83,， 84, 86 

特征 feature 88, 92-96, 98, 99, 104, 123-125, 128-131 

特征 提取 器 feature extractor 422, 425, 453, 469,， 543 

特征 映射 feature map 282,，389 

特征 选择 feature selection 204 

反馈 feedback 145 

前 向 feedforward 145 

前 馈 分 类 器 feedforward classifier 464 


前 馈 网 络 feedforward network 145-150，156，169,， 171，172，174，193-196，245，247，248，259， 
276, 319,，321,， 330,，334, 337,，344, 347,，361, 362,，429,，432, 434，435，437，449,，450，464， 
465，472, 474, 593 


前 馈 神 经 网 络 feedforward neural network 145-148, 151, 153, 165, 171, 175，246, 434 
现场 可 编程 门 阵 列 field programmable gated array 384 

精 调 fine-tune 451, 452, 455，520 

精 调 fine-tuning 275, 276, 425，565 

有 限 差分 finite difference 373 

第 一 层 first layer 145 

不 动 点 方程 fxed point equation 545，549, 550，554, 556，557，569，572 

定点 运算 fxed-point arithmetic 378 


翻转 fip 283 


术语 689 


浮 点 运算 Hoat-point arithmetic 378 
遗忘 门 forget gate 350-352 
前 向 模式 累加 forward mode accumulation 192 


前 向 传播 forward propagation 175，182，183，257-259,，285,，301,， 302，309, 325，326，338，346， 
349 


傅立叶 变换 Fourier transform 308, 309 
中 央 上 四 fovea 313 
自由 能 free energy 487 
频率 派 概率 frequentist probability 49 
频率 派 统 计 frequentist statistics 118 
Erobenius 范 数 Frobenius norm 35, 41, 44, 45 
下 分 数 F-score 361 
全 full 297 

乏 函 functional 155，551-555 


泛 函 导数 functional derivative 551-554 


Gabor 函 数 Gabor function 314-317 
Gamma 分 布 Gamma distribution 581 
门 控 gated 349-352, 355 
门 控 循 环 网 络 gated recurrent net 362 
门 控 循 环 单元 gated recurrent unit 349,， 351, 362 
门 控 RNN gated RNN 349, 351 
选 通 器 gater 383 


呈 


高 斯 分 布 Gaussian distribution xxvi，57,，58, 60, 68, 154, 156, 162, 163, 165, 295, 418, 426,， 554， 
555，578，580,， 581，587，588,， 595,， 600,，602 


高 斯 核 Gaussian kernel 124, 466 


时 


斯 混合 模型 Gaussian Mixture Model 60, 61, 390, 391, 496 


下 


囊 


高 斯 混合 体 Gaussian mixtures 466 


高 斯 输出 分 布 Gaussian output distribution 155 


囊 


中 


高 斯 RBM Gaussian RBM 579-581 
Gaussian-Bernoulli RBM Gaussian-Bernoulli RBM xiv，578-580 


690 术语 


通用 GPU general purpose GPU 379 


泛 化 generalization 97, 99, 136, 137,， 146-149, 151, 172,， 174，194, 197， 198, 257, 277， 364，381， 
386, 389, 425, 457-459, 465, 468, 469, 472 


泛 化 误差 generalization error 97，100-102，114，236，239-241，250，252，257，259，261，362， 
364-367, 425 


泛 化 generalize 257, 457-459, 468-470, 473,，592, 603, 606 

广义 函数 generalized function 59 

广义 Lagrange 函数 generalized Lagrange function 83,， 84, 204 

广义 Lagrangian generalized Lagrangian 83, 85 

广义 伪 似 然 generalized pseudolikelihood 525，526，576 

广义 伪 似 然 估 计 generalized pseudolikelihood estimator 525 

广义 得 分 匹配 generajlized score matching 527, 528 

生成 式 对 抗 框架 generative adversarial framework 465 

生成 式 对 抗 网 络 generative adversarial network 464, 465, 513, 531,，592, 597-601 


生成 模型 generative model 385, 417,，419,， 420, 422, 425,， 426, 428, 431-433,， 440, 453,， 464,， 465， 
470，471，498，513，515，531，537，557-559，564-566，585，587，591，592，594，596，600， 
611-614 


生成 式 建 模 generative modeling 594, 595, 597,， 602, 610-613 
生成 矩 匹 配 网 络 generative moment matching network 600, 601 
生成 随机 网 络 generative stochastic network xv, 431, 607-611 
生成 器 网 络 generator network 592-595,，597， 599-601 

吉 布 斯 分 布 Gibbs distribution 484 


Gibbs 采样 Gibbs Sampling 495, 499-501, 510-513, 515,， 522, 527, 565, 568, 570, 573, 576, 581， 
582 


吉 布 斯 步 数 Gibbs steps 519, 521，523,， 573 

全 局 对 比 度 归 一 化 Global contrast normalization 387-389 
全 局 极 小 值 global minima 245,， 246 

全 局 最 小 点 _ global minimum 75,， 76,，82,， 85,， 243,， 244, 249, 279 


梯度 gradient 76-78，82,， 83,， 85，86,，199-201,，203,， 205,，214, 215，323,， 326-330, 343,，344，346， 
347，349, 352-358,， 438,，439 


梯度 上 升 gradient ascent 548 
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梯度 截断 gradient clipping 246, 248, 258, 354, 355 


梯度 下 降 gradient descent 74, 75, 77-83, 85, 123, 132-134, 205, 206, 215, 237, 238, 242, 245-247， 
249, 251-255, 258, 259, 266, 272-274, 354, 365, 371, 380, 381, 405, 421, 429, 437, 447, 453， 
470, 511，541,， 545，549，577,， 589，594 


图 模型 graphical model 69, 331-334, 396, 475,， 476,，479, 481, 487, 488, 491, 494-499, 501, 538， 
543，544,，550, 551,， 554，559, 561，562, 566, 567,，591,，603 


图 形 处 理 器 Graphics Processing Unit 239, 378-380, 383, 384 
贪心 greedy 451, 452 
贪心 算法 greedy algorithm 275, 451 


贪心 逐 层 预 训 练 greedy layer-wise pretraining 310,，572，575，576 


由 


心 逐 层 训 练 greedy layer-wise training 572 


1 


心 逐 层 无 监督 预 训练 greedy layer-wise unsupervised pretraining 450-452 


由 


贪心 监督 预 训练 greedy supervised pretraining 275, 276 
贪心 无 监督 预 训 练 greedy unsupervised pretraining 452，574 


网 格 搜索 grid search 368-370 


Hadamard 乘积 Hadamard product xxv, 30 
汉 明 距离 Hamming distance 528 

硬 专家 混合 体 hard mixture of experts 383 
硬 双 曲 正切 函数 hard tanh 170 

簧 风琴 harmonium 499, 561 

哈里 斯 链 Harris Chain 509 

Helmholtz 机 Helmholtz machine 431， 592 


Hessian Hessian xxv，78-82, 200，201, 203,，204,，215，239，242，244，246，248，253，266-268， 
270,， 271, 279, 352, 453, 454, 575 


异 方差 heteroscedastic 162 


隐藏 层 hidden layer 5, 13,， 146-148, 150, 165,， 171-173，184,， 188, 190, 195,， 224, 271, 272,， 275- 
278，301,，324，429,， 434，440,，446,，448,， 449, 471, 472,，527，538,， 561-571，573，580，591， 
604, 606, 610 


隐 马 尔 可 夫 模 型 Hidden Markov Model 390-392 


692 术语 


隐藏 单元 hidden unit vi，5，15，16，20，21，148，154，156，165，166，168-172，175，190，195， 
206-208，211，215，218，220，222-224，226，229,，230,，243，257，260,，273，295，300，321， 
323-327, 329, 332, 334, 335, 339, 345, 348-350, 352, 363, 365-368, 374, 382, 383, 387, 405， 
421，434,， 437，445，446，466，469-472，492, 496,，499,，500,， 510，517，520，522，527，539， 
541, 543,， 546, 547,， 550, 560-562, 565-571， 575，578-582， 584-586，592, 594, 602, 604-606， 
613 


隐藏 变量 hidden variable 526, 538 

疏 山 hill climbing 77 

超 参 数 hyperparameter 253, 254, 259, 261-264, 359, 363-371, 375,， 455 
超 参 数 优化 hyperparameter optimization 368 


假设 空间 hypothesis space 98 


同 分 布 的 identically distributed 97 

可 办 认 的 identifiable 243 

单位 矩阵 identity matrix xxiii, 31 

独立 同 分 布 假设 i.i.d. assumption 97 

病态 ill conditioning 242 

不 道德 imnmorality 491, 492 

重要 采样 Importance Sampling 400, 401,，504-506,，532-536，592，596 
相互 独立 的 independent 53, 97 

独立 成 分 分 析 independent component analysis 418-422 
独立 同 分 布 independent identically distributed 503,， 531 
独立 子 空间 分 析 independent subspace analysis 421 

索引 index of matrix 27, 28 

指示 函数 indicator function 58 

不 等 式 约 束 inequajlity constraint 83-85 


推断 inference xiv，2，208，225，227-229，393，394，415，431，432，497，542，559，560，565， 
567-571，573-577,，582, 586，592-596,，598, 600,， 605, 606, 613 


无 限 infinite 456 
信息 检索 information retrieval 448 
内 积 inner product 123 


输入 input 282, 453 
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输入 分 布 input distribution 453, 454，457 
干预 查询 intervention query 53 
变 invariant 291 
求 逆 invert 579 
Isomap Isomap 456 


各 向 同性 isotropic 58, 61 


Jacobian Jacobian xxv，77, 78, 176, 178,， 180, 185-187, 233,， 278, 329, 343,， 345,， 346, 373,，421， 
445， 446 


Jacobian 和 矩阵 Jacobian matrix 65，178,，192 


联合 概率 分 布 joint probability distribution 50,，52, 53,，69, 559-561，566 


下 arush-Kuhn-Tucker 下 arush-Kuhn-Tucker 83-85，204, 206 
核 函 数 kernel function 123，282 

核 机 器 kernel machine 124,， 125, 146, 210,，345, 466, 564 

核 方法 kernel method 124 

核 技 巧 kernel trick 123, 124, 133, 146 

KEL 散 度 KL divergence 116, 219, 539, 545 

知识 库 knowledge base 2, 411, 412 

知识 图 谱 knowledge graph 412 

Krylov 方法 Krylov method 193 

KE 散 度 Kullback-Leibler (KL) divergence xxvi，67,，68 


标签 label 92, 94, 124, 136, 453, 459, 470, 472 

标注 labeled 363, 364, 375, 450, 454, 456, 458, 459, 461, 462 

拉 格 朗 日 乘 子 Lagrange multiplier 552，553 

语言 模型 language model 355, 392-394, 402, 403, 406, 410, 506 

Laplace 分 布 Laplace distribution 58 

大 学 习 步 又 large learning step 544 

潜在 latent 163, 418, 419, 426, 431, 451, 463,， 496, 522, 560,，561, 597，599, 602, 609 


潜 层 latent layer 561 


人 术语 


潜 变 量 latent variable xiii，60,， 163,， 243，396, 417-419, 429, 431-433，435，452，462，466，472， 
486，487,， 496-499,，501，512，514，517，521，527，538，539，541，542，544，545，548，554， 
560-562，564-567，576，592，594-596, 607, 609 


大 数 定理 Law of large number 503 

逐 层 的 layer-wise 451 

工 -BFGS L-BFGS 270,，271 

渗 漏 整流 线性 单元 Leaky ReLU 167, 362 

渗 漏 单元 leaky unit 347-349 

学 成 learned 450, 454, 458, 459, 465,，467, 470, 473,， 474, 557，558，592 
学 习 近 似 推断 learned approximate inference 447 

学 习 器 learner 106, 138, 240, 457, 459, 463, 469, 472, 473 


学 习 率 learning rate 77, 79, 133, 235, 239, 242, 251, 252, 254, 256,，261-264, 266, 268, 271, 362， 
363,，365-368,，372, 523，524, 573,， 589,，591 


勒 贝 格 可 积 Lebesgue-integrable 517 

左 特征 向 量 left eigenvector 37 

左 奇异 向 量 left singular vector 40 

莱 布 尼 效 法 则 Leibniz's rule 517 

似 然 likelihood 49 

线 搜索 line search 77, 83, 269 

线性 自 回归 网 络 linear auto-regressive network 602 

线性 分 类 器 linear classiftier 237, 428, 449, 453, 458, 467, 470 

线性 组 合 linear combination 33 

线性 相关 linear dependence 33 

线性 因子 模型 linear factor model 417, 418, 420, 421, 423, 425, 426, 428, 501, 543，579 
线性 模型 linear model 14, 198, 203, 204, 206, 215,，228, 231, 560，602 


线性 回归 linear regression 87,， 94，96-98, 100,，101, 104，108, 117-119,，121-123，133，134，198， 
200-203, 205, 206, 219, 228, 260, 345, 428, 544, 602 


线性 阀 值 单 元 linear threshold units 469, 470 
线性 无 关 linearly independent 33 
链接 预测 link prediction 412 


链接 重要 采样 linked importance sampling 537 


术语 695 


Lipschitz Lipschitz 82 

Lipschitz 常数 Lipschitz constant 82 

Lipschitz 连续 Lipschitz continuous 82 

流体 状态 机 liquid state machine 345 

局 部 条 件 概 率 分 布 local conditional probability distribution 480 
局 部 不 变性 先 验 local constancy prior 136 

局 部 对 比 度 归 一 化 local contrast normalization 388, 389 

局 部 下 降 local descent 250 

局 部 核 local kernel 137, 466 

局 部 极 大 值 local maxima 127, 245 

局 部 极 大 点 local maximum 74,， 75， 79,， 80, 244, 549 

局 部 极 小 值 local minima 243-245, 249, 279, 453 

局 部 极 小 点 local minimum 74-76, 79, 80, 82, 213, 214, 237, 243, 244, 249, 255,， 453 
对 数 尺度 logarithmic scale 368, 369 


逻辑 回归 logistic regression 2，3，6,，123,，146, 153,，155，177，198, 206,，231, 310, 362，367,，397， 
530,， 560,，600, 602 


logistic sigmoid logistic sigmoid vi 61,，62,，122, 157,，159,， 168,，171 

分 对 数 logit 63,，158 

对 数 线性 模型 log-linear model 486 

长 短期 记忆 long short-term memory ix，16,，22,， 260, 278, 349-353, 355, 356, 358, 362, 392 
长 期 依赖 long-term dependency 247, 341, 343-345,， 347,， 348, 351, 355 

环 loop 492, 493 

环 状 信念 传播 loopy belief propagation 498, 499 

损失 loss 91, 116, 132,，528, 576 


损失 函数 loss function 74,，107,，134,， 219, 236,， 237,，245,，248，249, 253, 278, 325-327, 355，365， 
396, 401, 422, 430, 431, 433,， 435,，447,，585,，587,，602 


机 器 学 习 machine learning 2-4, 7，10, 12-18, 20, 24, 26, 72, 86-95, 97-100,， 102, 104, 105，108， 
112，113，118，119,， 123，126，132，134，135，138，139，141，197，204，206-208，220，222， 
232，234-237，240,，241，251，252，260，279，319，353，359-364，371,，372，374，377，378， 
380-382，401, 407，408, 410，411，429,，440，443,，449,，453,，458,， 473，474,，476,，486,，490， 
496,，498,， 502, 506, 518，519, 542,，551，552，557 


696 术语 


机 器 学 习 模型 machine learning model 452 

机 器 翻译 machine translation 362,， 459 

主 对 角 线 main diagonal 29 

流 形 manifold 139, 141, 142, 233, 426, 427, 438_446, 473, 474, 496, 511, 513， 597 

流 形 假设 manifold hypothesis 140 

流 形 学 习 manifold learning 139, 434, 442-444，597 

边缘 概率 分 布 marginal probability distribution 52 

马尔 可 夫 链 Markov Chain xv，506-514, 518-524, 527,， 534,， 566, 569, 571,，573, 607-610 


马尔 可 夫 链 蒙特 卡 罗 Markov Chain Monte Carlo 415，504，506，507，509，511，513，518-520， 
524,， 528，534, 563，569, 575, 606, 609-611 


马尔 可 夫 网 络 Markov network 482, 486, 496, 500 
马尔 可 夫 随 机 场 Markov random field 482, 486 

拓 码 mask 222-225, 228,， 229 

和 矩阵 matrix 28 

和 矩阵 逆 matrix inversion 31, 32 

和 矩阵 乘积 matrix product 29 

最 大 范 数 max norm 35 

池 pool 291, 293, 294 

最 大 池 化 max pooling 290-293, 301, 469, 602 

极 大 值 maxima 244, 245 

M 步 maximization step 541， 542 

最 大 后 验 Maximum A Posteriori v,， 121, 122, 204, 392, 432,， 542-544,， 558，582 
最 大 似 然 maximum likelihood 420, 424, 516,，545，546 


最 大 似 然 估 计 maximum 1likelihood estimation 115-119, 121,，122，134,，238, 393，520,，525，529， 
543，545 


最 大 平均 偏差 maximum mean discrepancy 601 

maxout maxout 213,， 243, 259,， 278, 292, 317, 362 

maxout 单元 maxout unit 167,， 168, 172, 317, 365 

平均 绝对 误差 mean absolute error 156 

均值 和 协 方差 RBM mean and covariance RBM 580-583 

学 生 上 分 布 均 值 乘积 mean product of Student t-distribution 580-583 


术语 人 


均 方 误差 mean squared error 95, 96, 103，104, 113, 116-118, 120,，129,，148, 154-156，158，194， 
195, 345,，422, 430, 435, 437, 464, 465,，590,， 595,， 608 


均值 - 协 方 差 RBM mean-covariance restricted Boltzmann machine 486 
均匀 场 meanfield 21,， 568-570,，572-574，576, 577，584,，592, 596, 605 
均值 场 mean-field 544-551，554，557，558 

测度 论 measure theory 64 

零 测 度 measure zero 64 

记忆 网 络 memory network 356, 358, 412 

信息 传输 message passing 551 


小 批量 minibatch viii，132，183,，189, 190，221-223,，237-241,， 248, 251-254，256,，259，261-265， 
270, 272, 320, 353, 354, 374, 380, 383, 429, 436, 453,， 502,， 509,， 519,，521,， 523, 541, 573，577 


小 批量 随机 minibatch stochastic 239 
极 小 值 minima 245, 249 

极 小 点 minimum 250, 251，553 

混合 Mixing 511-515，521-524 
混合 时 间 Mixing Time 509, 510 


一 


昆 合 密度 网 络 mixture density network 163 


交 
圈 


分 布 mixture distribution 59 


一 
所 | 


合 
专家 混合 体 mixture of experts 383, 466 
模 态 modality 460 

峰值 mode xiii, 511-515， 520，522-524，551 

模型 model 452 

模型 平均 model averaging 220-222 

模型 压缩 model compression 381 

模型 可 辨识 性 model identifiability 243 

模型 并 行 model parallelism 380 

和 矩 moment 600, 601, 611 

和 矩 匹 配 moment matching 600, 611 

动量 momentum 253-256, 261, 263，264, 277, 362 

蒙特 卡 罗 Monte Carlo 227, 400,， 502-504, 506, 515，518,， 524,，532，557, 581，589，595 


]IMoore-Penrose 伪 逆 Moore-Penrose pseudoinverse xxv, 41, 99, 105 


698 术语 


道德 化 moralization 491, 492 
道德 图 moralized graph 491, 492 


多 层 感知 机 mnultilayer perceptron 5，20，21，145，188，189,，194, 275，276,，298，340,，341，403， 
440, 471, 560, 565，566,，568,， 569,，574,， 575,， 586 


多 峰值 multimodal 533, 550, 611 

多 模 态 学 习 multimnodal learning 460 

多 项 式 分 布 multinomial distribution 56 

Multinoulli 分 布 multinoulli distribution 56，59, 60, 73, 159, 163 

多 预测 深度 玻 尔 效 曼 机 multi-prediction deep Boltzmann machine 575-577,， 596，607 
多 任务 学 习 mnultitask learning 210, 211, 457,， 458 

多 维 正 态 分 布 multivariate normal distribution 58, 418，512 


朴素 贝 叶 斯 naive Bayes 2 

奈 特 nats 66 

自然 语言 处 理 Natural Language Processing 246, 363,， 377, 392, 395,，396, 406, 407, 410, 455 
近邻 nearest neighbor 137, 450, 466-468 


汉中 


、 


近邻 图 nearest neighbor graph 443 


汉中 


最 近邻 回归 nearest Deighbor regression 101,，125 

负 定 negative definite 38 

负 部 函数 negative part function 63 

负 相 negative phase 517-520，522-524，526，527，557，561，571，572 


半 负 定 negative semidefinite 38 

Nesterov 动量 Nesterov momentum 256 

网 络 network 145 

神经 自 回归 密度 估计 器 neural auto-regressive density estimator xiv,， 602, 604-606 
神经 自 回 归 网 络 neural auto-regressive network 603-606 

神经 语言 模型 Neural Language Model 394, 396, 397, 399, 401, 402, 406, 411 
神经 机 器 翻译 Neural Machine Translation 395 


神经 网 络 neural network 12-17, 19-23, 197-199, 205-207, 215, 218, 221, 222, 225, 229_232, 234， 
235, 241-250, 257, 258, 261, 262, 266, 267, 269, 270, 273-275, 277-280, 319, 341, 349, 356， 
358，377-379，384，387，390-392，395，396，401，402,，405,，406,， 408，411，429,， 444，447， 
452-455，466, 470, 506, 556, 587 





术语 


神经 网 络 图 灵机 neural Turing machine 356, 357 

牛顿 法 Newton's method 81, 82, 85, 242, 243, 245, 250,， 266-268, 270, 274 
m-gram D-gram 393, 394,， 396, 397, 401-403,， 467,，478 

没有 免费 午餐 定理 no free lunch theorem 102, 105, 472 

噪声 noise 101, 140, 239,， 248, 253, 279, 362, 363, 453，528-531 

噪声 分 布 noise distribution 529-531 

噪声 对 比 估 计 noise-contrastive estimation 529-531 

非 凸 nonconvex 241, 243-246, 262，266, 275, 279 

非 分 布 式 nondistributed 467-469 

非 分 布 式 表 示 nondistributed representation 466-468 

非 线性 共 斩 梯 度 nonlinear conjugate gradients 269, 270 

非 线性 独立 成 分 估计 nonlinear independent components estimation 420, 421 
非 参数 non-parametric 100, 394, 442-444 

范 数 norm 34 

正 态 分 布 normal distribution 57，58, 61, 504, 553 

正规 方程 normal equation 96, 98, 99, 133,， 148 

归 一 化 的 normalized 51 

标准 初始 化 normalized initialization 258 

数值 numeric value 182 


数值 优化 numerical optimization 235，242, 246 


对 象 识别 object recognition 246, 362, 364,， 385, 389, 390, 423, 425, 459,，612 
目标 objective 455 


699 


目标 函数 objective function 74，77，84，197-202，204，205，213，214，217，221，236-238，241， 
246-248, 250, 252, 253, 265-267, 269, 274, 278, 279, 353, 359, 368, 374, 450, 470, 525, 527， 


564，572 
奥 卡 姆 剃刀 Occam's razor 100 


one-hot one-hot 125, 131,， 161, 193,，394, 395, 454, 455, 459, 466, 468, 586, 603 


一 次 学 习 one-shot learning 459 
在 线 online 238 
在 线 学 习 online learning 240 


700 术语 


操作 operation 176 

最 佳 容 量 optimal capacity 101, 103, 114 
原点 origin 33 

正 交 orthogonal 36 

正 交 和 矩阵 orthogonal matrix 37 
标准 正 交 orthonormal 36, 39 

输出 output 453 

输出 层 output layer 145 

过 完备 overcomplete 431, 434， 582,， 583 
过 估计 overestimation 506 


过 拟 合 overfitting 98，99,，105，114，197,，198,，215, 237，241,，252，258,，359, 363,，365, 366,，372， 
375,， 381, 450, 454, 455, 478, 613 


过 拟 合 机 制 overfitting regime 101 


上 浇 overfow 72, 73, 535 


并 行 分 布 式 处 理 Parallel Distributed Processing 194 
并 行 回 火 parallel teampering 514,， 524,，537 

参数 parameter 94 

参数 服务 器 parameter server 381 


参数 共享 parameter sharing 218, 225, 229, 285, 286, 288, 300, 313, 319, 320, 322, 323,， 332, 333， 
402, 601, 602, 604 


有 参 情况 parametric case 118 
参数 化 整流 线性 单元 parametric ReLU 167, 362 
偏 导数 partial derivative 76，77, 445，551 


配 分 函数 Partition Function 415，484，486，502，506，515，516，518，519，524，525，527_529， 
531-537，557，559-561, 564，565，571， 578，583，584, 598 


性 能 度量 performance measures 87, 88, 91, 95, 361, 362 

性 能 度量 performance metrics 359, 360, 362, 370, 372, 374, 375 

置换 不 变性 permutation invariant 296 

持续 性 对 比 散 度 persistent contrastive divergence 521, 523,， 564,，572, 575,， 581，582 
音素 phoneme 390-392, 457 


术语 1 


语音 phonetic 392 

分 段 piecewise 362 

点 估计 point estimator 108 

策略 policy 409, 410 

策略 梯度 policy gradient 383 

池 化 pooling 207, 229, 281, 287, 290-295, 299, 306, 309, 310, 312, 313, 386, 421 
池 化 函数 pooling function 290 

病态 条 件 poor conditioning 74,，81, 239, 242, 246, 248, 250, 253, 454 
正定 positive definite 38 

正 部 函数 positive part function 63 

正 相 positive phase 517-520,， 523，524,，557,， 560，571 

半 正 定 positive semidefinite 38 

后 验 概率 posterior probability 60 

圭 方 法 power method 248 

PR. 曲线 PR. curve 361 

精度 precision 57, 361, 373, 612 

精度 矩阵 precision matrix 58 

预测 稀疏 分 解 predictive sparse decomposition 447 

预 训练 pretraining 275-278, 391, 425, 451-456, 498, 521,，527 

初级 视觉 皮层 primary visual cortex 311 


主 成 分 分 析 principal components analysis xi, 42-44, 128-130, 134, 210, 235, 302, 388, 418-420， 
422,， 424,， 426, 427, 430, 441, 446, 448 


先 验 概率 prior probability 60 

先 验 概率 分 布 prior probability distribution 118, 295 

概率 PCA probabilistic PCOA 418-420, 426, 538, 539 

概率 密度 函数 probability density function 51, 52, 57-59, 64, 503, 551-553，598 

概率 分 布 probability distribution 47， 50-56,， 58-61, 66, 67, 69, 70, 360, 472， 516,， 529, 531 
概率 质量 函数 probability mass function 50， 51,， 90,， 560，571 

专家 之 积 product of expert 486 

乘法 法 则 product rule 53 


用 术语 


成 比例 proportional 70 
提议 分 布 proposal distribution 400, 532, 534-536 
伪 似 然 pseudolikelihood 524-530, 571 


象限 对 quadrature pair 316 


量子 力学 quantum mechanics 48 


径 向 基 函 数 radial basis function 124, 146,， 170, 471 

随机 搜索 random search 369-371 

随机 变量 random variable 49-56,， 58-60, 64, 65,， 67, 69, 70, 472, 525,， 530, 534 
值 域 range 33 

比率 匹配 ratio matching 527， 528,，564 

召回 率 recall 361, 382, 612 

接受 域 receptive field 287, 295 

再 循环 recirculation 429 

推荐 系统 recommender System 407-409 

重 构 reconstruction 429, 430, 436-439, 441, 442, 445-447, 608, 609 


重 构 误差 reconstruction error 419,， 422，426, 427,， 431, 433,，437,， 438, 440, 445,， 446,， 448,， 454， 
514， 608 


整流 线性 rectified linear 151, 167,，230, 243,， 273,， 290 
整流 线性 变换 rectified linear transformation 152 


整流 线性 单元 rectified linear unit 14,，15，150，151，165-168,， 170-172,，177，195，233，278，362， 
375, 391, 433, 455 


整流 网 络 rectifier network 172, 173, 195 
循环 recurrence 450 
循环 卷 积 网 络 recurrent convolutional network 307 


循环 网 络 recurrent network 145, 246-248, 307, 319-324, 326, 330, 333, 338, 341, 343-347,， 349， 
350,， 353,， 354, 357,， 412, 417,， 440, 474, 550，576，577 


循环 神经 网 络 recurrent neural network ix，21，22，144，145，208，228,，247, 306, 318-325，328， 
330-341, 343-345, 348, 349, 352, 355, 358, 392, 403, 550，585,，586, 596 


回归 regression 103 


正则 化 regularization 104，105，118，122，197_206，208，209, 212-220，222，227-236，258，355， 
359, 362, 364-366, 387-389, 422, 431, 432, 434, 438, 440, 446, 453, 455,， 472 


术语 人 


正则 化 regularize 239, 365, 421, 422, 455, 456,， 514，528, 575，584，588 

正则 化 项 regularizer 104, 122，126, 134, 362,， 452, 454, 455，467 

强化 学 习 reinforcement learning 23, 93, 232, 383, 409, 410, 458,， 557，588,，590 
关系 relation 410-412 

关系 型 数据 库 relational database 411 

重 参数 化 reparametrization 575，588 

重 参数 化 技巧 reparametrization trick 588,， 594, 610 


表示 representation 2-7, 16, 210, 219, 220, 297, 357, 367, 394, 395, 403, 404, 411, 430, 431, 433， 
440-442,，448 


表示 学 习 representation learning 4,， 403，417,，419,，448-450,，452,，457,，458, 461-463，466,， 472-- 
474, 501, 514 


表示 容量 representational capacity 100, 104 
储 层 计 算 reservoir computing 345 


受 限 玻 尔 效 曼 机 Restricted Boltzmann Machine 228, 301, 391, 408, 437, 438, 448, 450, 472, 490， 
499-501, 510, 514, 515，517,，519-523，533,，536-538, 561-568, 571，572，574，575，578，579， 
581,， 583，585,， 586,，591, 600, 605,， 609, 610 


反 向 相关 reverse correlation 314 

反 向 模式 累加 reverse mode accumulation 191 
岭 回 归 ridqge regression 199 

右 特 征 向 量 right eigenvector 37 

右 奇 异 向 量 right singular vector 40 

风险 risk 236 


行 row 28 


扫 视 saccade 313 

贰 点 saddle point 75, 76, 79, 80, 82,， 244-246, 248, 249, 266, 267 
无 鞍 牛 顿 法 saddle-free Newton method 245 

相同 same 297, 298 

样本 均值 sample mean 110 

样本 方差 sample variance 110, 111 

饱和 saturate 61 


标量 scalar 27 


人 术语 


得 分 score 437-440, 526，527 

得 分 匹配 score matching 437, 438, 445，526-530, 606 

二 阶 导 数 second derivative 77-80 

二 阶 导 数 测试 second derivative test 80 

第 二 层 second layer 145 

二 阶 方法 second-order method 245 

自 对 比 估计 self-contrastive estimation 531 

自信 息 self-information 66 

语义 哈 希 semantic hashing 448 

半 受 限 玻 尔 效 曼 机 semi-restricted Boltzmann Machine 539 
半 监 督 semi-supervised 363, 415 

半 监 督学 习 semi-supervised learning 209, 210, 231, 450, 452, 454, 462, 463, 473 
可 分 离 的 separable 309, 449, 453 

分 离 的 separate 473 

分 离 separation 487, 488, 495 

情景 setting 458, 459, 469, 471 

浅 度 回 路 shadow circuit 472 

香农 炒 Shannon entropy xxvi， 66, 67 

香农 shannons 66 

塑造 shaping 279, 560, 611 

短 列 表 shortlist 396, 397 

sigmoid sigmoid 157-162,，168,，169, 195, 278, 362, 425, 511 
sigmoid 信念 网 络 sigemoid Belief Network 591，592 

简单 细胞 simple cell 311 

奇异 的 singular 34 

奇异 值 singular value 39, 40 

奇异 值 分 解 singular value decomposition 39-41, 130, 408 
奇异 向 量 singular vector 39 

跳跃 连接 skip connection 340, 341, 347, 348 

慢 特 征 分 析 slow feature analysis 421-423, 474 


术语 0 


慢性 原则 slowness principle 421-423 

平滑 smoothing 394 

平滑 先 验 smoothness prior 136 

softmax softmax 449 

softmax 函数 softmax function 72, 73, 209, 226, 227, 325, 328, 372, 375, 383 
softmax 单元 softmax unit 375 

softplus softplus 170 

softplus 函数 softplus function 61-63, 158, 170 
生成 子 空间 span 33 

稀疏 sparse 203, 204, 218-220, 227,， 431-434, 440 
稀疏 激活 sparse activation 195 


稀 疏 编码 sparse coding 274, 423-426, 432, 440, 447, 451, 490, 492, 496, 501, 527,，538,， 543，544， 
551，558，582,， 583,，591 


稀 玻 连接 sparse connectivity 285-287 

稀 疏 初始 化 sparse initialization 259 

稀疏 交互 sparse interactions 285 

稀疏 权重 sparse weights 285 

谱 半 径 spectral radqius 345-347 

语音 识别 Speech Recognition 362, 377,， 381, 390-392, 457 
sphering sphering 388 

尖峰 和 平板 spike and slab 317, 425, 426 

尖峰 和 平板 RBM spike and slab RBM 580-583 

虚假 模 态 spurious modes 520,，522 

方 阵 square 34 

标准 差 standard deviation 54, 112, 238, 272, 273, 386-389 
标准 差 standard error 57, 111, 112，238 

标准 正 态 分 布 standard normal distribution 57 

声明 statement 47, 48 

平稳 的 stationary 333 

平稳 分 布 Stationary Distribution 508-510,，512 
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驻 点 stationary point 74, 84 

统计 效率 statistic effciency 118 
统计 学 习 理 论 statistical learning theory 97 
统计 量 statistics 108 

最 陡 下 降 steepest descent 247 

随机 stochastic 238, 239 

随机 课程 stochastic curriculum 280 

随机 梯度 上 升 Stochastic Gradient Ascent 541 


随机 梯度 下 降 stochastic gradient descent 14，87，132，133，205，206，216，222，228，238-242， 
246,，251-254，256，258，270，277,，344，353，354，356，362,，380,，437,，506，518，574，575， 
589, 606 


随机 和 矩阵 Stochastic Matrix 508 


随机 最 大 似 然 stochastic maximum likelihood 521-524，526，528，529，564，565，568，571-574， 
576 


流 stream 240 

步 幅 stride 287, 291, 293, 294, 297, 298, 301, 302, 306 

结构 学 习 structure learning 496, 498 

结构 化 概率 模型 structured probabilistic model 47, 69, 70, 472, 475, 477, 479-482, 495, 498, 559 
结构 化 变 分 推断 structured variational inference 544 

亚 原子 subatomic 48 

子 采样 subsample 502 

求 和 法 则 sum rule 52 

和 - 积 网 络 sum-product network 472 

监督 supervised 92, 210, 211, 218, 231, 236, 310, 311, 317, 379, 425, 440, 449-453, 455,，557，584 


监督 学 习 supervised learning xxvii 87, 92_94, 101, 107, 116, 122, 123, 125,， 126,， 134,， 140, 144， 
210，232，236，342，362，397，407，409,， 410,， 415，432，449,， 450, 452，453,， 455-458，462， 
463, 472, 529, 594 


监督 学 习 算法 supervised learning algorithm 92 
监督 模型 supervised model 453 
监督 预 训练 supervised pretraining 456 


支持 向 量 support vector 124, 466 
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代理 损失 函数 surrogate loss function 237, 248 
符号 symbol 182 
符号 表示 symbolic representation 182, 466, 468 


对 称 symmetric 36 


切面 距离 tangent distance 232 

切 平面 tangent plane 440, 443, 446 

正切 传播 tangent prop 232-234 

目标 target 92-95,， 101, 102, 105，108, 116, 122,，128, 134, 135,，137,，138, 141 

泰勒 taylor 79, 81, 203, 215, 242 

导师 驱动 过 程 teacher forcing 327,，328 

温度 temperature 514 

回 火 转移 tempered transition 514 

回 火 tempering 514 

张 量 tensor 28 

测试 误差 test error 97, 98,，101, 103, 241, 363, 365, 366, 371, 372, 375, 452, 454, 455 
测试 集 test set 91, 95, 97, 98, 106, 107, 112, 235, 237, 252, 277, 363, 364, 366, 372, 375, 454 
碰撞 情况 the collider case 489 

绑 定 的 权重 tied weights 285 

Tikhonov 正则 Tikhonov regularization 199 

平 铺 卷 积 tiled convolution 300, 301, 303, 305 

时 延 神经 网 络 time delay neural network 314, 319, 391 


时 间 步 time step 168，247，248, 265,， 319-335,， 339-341, 343,，346,，348-350, 352-354，357，392， 
404, 405,， 423, 577,，585,，605, 609, 610 


Toeplitz 矩阵 Toeplitz matrix 284 

标记 token 392, 393, 411 

容 差 tolerance 85,， 549 

地 质 ICA topographic ICA 421 

训练 误差 training error 97, 98, 100-103, 236, 241, 364-366, 372, 375,， 454 


训练 集 training set 97, 98, 235-241, 243,， 249, 251, 252， 254，256,， 260, 262-_265，267，269，274， 
277, 280, 360, 362-364, 366, 367, 372,， 373, 375, 462,， 464, 468 
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转录 transcribe 89, 91, 94 

转录 系统 transcription system 359, 361, 372, 374, 375 
迁移 学 习 transfer learning 454, 456-461, 604 

转移 transition 322 

转 置 transpose 29 

三 角 不 等 式 triangle inequality 34 

三 角形 化 triangulate 493 

三 角形 化 图 triangulated graph 493 


三 元 语法 trigram 393 


无 偏 unbiased 109, 240, 241,， 251,， 503-505，528 
无 偏 样本 方差 unbiased sample variance 111 

欠 完 备 undercomplete 430, 431 

欠 定 的 underdetermined 552 

欠 估 计 underestimation 506 

欠 拟 合 underfitting 98,，99, 105,，114, 197-199, 241, 295,，359, 365, 366, 372, 373, 375，598, 613 
欠 拟 合 机 制 underfitting regime 101 

下 洪 underfow 72, 73 

潜在 underlying 236, 237, 462-466, 470-474 
潜在 成 因 underlying cause 461, 463, 473 

无 向 undirected 69 


无 向 模型 undirected Model 482-488, 490-493, 495，500,，502, 510, 515-518，538，557，564，565， 
591 


展开 图 unfolded graph 322, 323, 326, 392 

展开 unfolding 320-322, 340, 392 

均匀 分 布 uniform distribution 51， 52, 55，67,，165, 456 
一 元 语法 unigram 393, 400 

单 峰值 unimodal 514, 556 

单元 unit 146 

单位 范 数 unit norm 36, 43 


单位 向 量 unit vector 36 


术语 人 


万 能 近似 定理 universal approximation theorem 171, 172, 434 
万 能 
万 能 
未 标注 unlabeled 450, 454, 455, 459, 461, 463, 472 


近似 器 universal approximator 60, 471, 472, 560 


数 近似 器 universal function approximator 151 
未 归 一 化 概率 函数 unnormalized probability function 483, 484,， 486, 493 
非 共 享 卷 积 unshared convolution 299 


无 监督 unsupervised 20, 21, 92, 210, 218, 228， 363, 391, 415, 423, 425, 440, 447, 449-453, 455， 
458, 459, 462, 463 


无 监督 学 习 unsupervised learning 87,，92-94,，107,， 128,，134,， 207,，210,， 211,，234,，236，363，391， 
415,， 432, 443, 450-455,，457,， 458, 462-464,， 529, 610 


无 监督 学 习 算法 unsupervised learning algorithm 92 


无 监督 预 训练 unsupervised pretraining 450,，452-457 


有 效 valid 284, 297, 298 

验证 集 validqation set 106，237, 242,，259, 368-370, 455 

梯度 消失 与 爆炸 问题 vanishing and exploding gradient problem 247,， 248, 259 
梯度 消失 vanishing gradient 248 

Vapnik-Chervonenkis 维度 Vapnik-Chervonenkis dimension 100, 467, 470 
变量 消去 variable elimination 547 

方差 variance 54, 56, 57,，111, 197-199, 202,， 206,，220 

方差 减 小 _variance reduction 589,， 590 

变 分 自 编码 器 variational auto-encoder 195, 431, 506, 558, 592，594-597, 600, 606 
变 分 导数 variational derivative 551 

变 分 自由 能 variational free energy 539 

变 分 推断 variational inference 497,，499, 526 

去 品 denoise 128, 386 

向 量 vector 27 

虚拟 对 抗 样本 _ virtual adversarial example 231 

虚拟 对 抗 训 练 virtual adversarial training 452 

可 见 层 visible layer 5 

V- 结 构 V-structure 489, 539 
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醒 眠 wake sleep 557,， 565，592 

warp warp 380, 383 

支持 向 量 机 support vector machine 123-125, 153,，310, 367,， 522 
无 向 图 模型 undirected graphical model 516, 531 

权重 weight 94 


权重 衰减 weight decay 104-106, 199-202, 205, 206, 209, 213, 215, 217, 218, 227, 228, 243,， 258， 
274, 364-367, 432, 454，524,， 544 


权重 比例 推断 规则 weight scaling inference rule 226-229 
权重 空间 对 称 性 weight space symmetry 243 

条 件 概率 分 布 conditional probability distribution 534 
白化 _ whitening 388 

宽度 width 146 

赢 者 通 吃 winner-take-all 161 

正切 传播 tangent propagation 474 

流 形 正 切 分 类 器 manifold tangent classifier 474 

词 能 入 word embedding 363, 395, 404, 406, 408, 454, 459 


词义 消 岐 word-sense disambiguation 412 


零 数 据 学 习 zero-data learning 459, 461 


零 次 学 习 zero-shot learning 459-461 


